Logistic Regression
Bismillah, sumber catatan ini ada beberapa diantaranya
- Data Camp : Logistic Regression
- Practical Statistics for Data Scientists, Peter Brauce, Andrew Brauce, dan Peter Gedeck
Pengertian
Tujuan dalam menganalisa menggunakan model Logistic Regression mirip dengan model regresi statistik yang lainya, yaitu menemukan garis yang paling cocok, sehingga dengan demikian model tersebut dapat mendeskripsikan hubungan antara dependent variable atau response dan independent variabel atau bisa disebu sebagai prediktor.
Lalu yang membedakan antara logistic regression dengan linear regression adalah hasil keluaran dari variabel logistic regression yang mana dalam bentuk binary (0 atau 1, iya atau tidak, bagus atau buruk). Selain dari hasil keluaran, perbedaan model tersebut terlihat dari belum model dan asumsinya. Linear Regression mencari kecocokan dengan least Square dan kualitas model tersebut diukur dengan RMSE, MAE dan \(R^2\). Sedangkan pada Logistic Regresion menggunakan MLE (Maximum Likelihood Estimation).
Uji performa
Receiver Operator Characteristic (ROC)
Kurva ROC dibangun dengan memploting true posirive rate TPR dengan False Positive Rate FPR. TPR
adalah proporsi dari observasi yang diprediksi true positive berdasarkan seluruh observasi positif \(TP/(TP+FN)\). Sedangkan FPR
adalah proporsi dari obeservasi yang diprediksi false positive berdasarkan seluruh observasi, \(FP/(TP+FN)\).
Contoh, pada pengujian medis, true positive rate adalah tingkat nilai true positive yang mana pasien secara benar teridentifikasi berdasarkan hasil uji coba dinyatakan postive pada penyakit ditanyakan tersebut.
A discrete classifier that returns only the predicted class gives a single point on the ROC space. But for probabilistic classifiers, which give a probability or score that reflects the degree to which an instance belongs to one class rather than another, we can create a curve by varying the threshold for the score. Note that many discrete classifiers can be converted to a scoring classifier by ‘looking inside’ their instance statistics. For example, a decision tree determines the class of a leaf node from the proportion of instances at the node.
Why TPR, FPR dan Tresshold differeint with the data given