Untuk regresi linier, kita dapat memeriksa plot diagnostik (plot residual, plot QQ Normal, dll) untuk memeriksa apakah asumsi regresi linier dilanggar.
Untuk regresi logistik, saya mengalami kesulitan menemukan sumber daya yang menjelaskan cara mendiagnosis model regresi logistik yang sesuai. Menggali beberapa catatan saja untuk GLM, itu hanya menyatakan bahwa memeriksa residu tidak membantu untuk melakukan diagnosis untuk kecocokan regresi logistik.
Melihat-lihat di internet, tampaknya ada berbagai prosedur "diagnosis", seperti memeriksa penyimpangan model dan melakukan tes chi-squared, tetapi sumber lain menyatakan bahwa ini tidak tepat, dan bahwa Anda harus melakukan kebaikan Hosmer-Lemeshow. uji. Kemudian saya menemukan sumber lain yang menyatakan bahwa tes ini mungkin sangat tergantung pada pengelompokan aktual dan nilai cut-off (mungkin tidak dapat diandalkan).
Jadi bagaimana seharusnya seseorang mendiagnosis regresi logistik sesuai?
sumber
Jawaban:
Beberapa teknik baru yang saya temui untuk menilai kecocokan model regresi logistik berasal dari jurnal ilmu politik:
Kedua teknik ini dimaksudkan untuk menggantikan tes Goodness-of-Fit (seperti Hosmer & Lemeshow) dan mengidentifikasi potensi mis-spesifikasi (khususnya non-linearitas dalam variabel yang dimasukkan dalam persamaan). Ini sangat berguna karena ukuran kecocokan R-square yang khas sering dikritik .
Kedua makalah di atas menggunakan probabilitas diprediksi vs hasil yang diamati dalam plot - agak menghindari masalah yang tidak jelas tentang apa yang merupakan residual dalam model tersebut. Contoh residu dapat menjadi kontribusi untuk kemungkinan log atau residu Pearson (saya percaya ada lebih banyak lagi). Ukuran lain yang sering menarik (meskipun bukan residual) adalah milik DFBeta (jumlah yang diperkirakan oleh koefisien berubah ketika pengamatan dikeluarkan dari model). Lihat contoh di Stata untuk halaman UCLA ini tentang Diagnostik Regresi Logistik bersama dengan prosedur diagnostik potensial lainnya.
Saya tidak menggunakannya, tetapi saya percaya Model Regresi J. Scott Long untuk Variabel Ketegori dan Terbatas bergantung pada perincian yang cukup tentang semua tindakan diagnostik yang berbeda ini dengan cara yang sederhana.
sumber
Pertanyaan itu tidak cukup termotivasi. Pasti ada alasan untuk menjalankan diagnostik model, seperti
Kecuali untuk memeriksa hal-hal yang ortogonal dengan spesifikasi regresi aljabar (misalnya, memeriksa distribusi residu dalam model linier biasa), model diagnostik dapat menciptakan masalah sebanyak yang mereka pecahkan menurut pendapat saya. Ini terutama berlaku untuk model logistik biner karena tidak memiliki asumsi distribusi.
Jadi biasanya lebih baik menghabiskan waktu menentukan model, terutama untuk tidak mengasumsikan linearitas untuk variabel yang dianggap kuat yang tidak ada bukti sebelumnya yang menunjukkan linearitas. Dalam beberapa kesempatan Anda dapat menentukan sebelumnya model yang harus sesuai, misalnya, jika jumlah prediktor kecil atau Anda membiarkan semua prediktor menjadi nonlinier dan (dengan benar) tidak menganggap interaksi.
Siapa pun yang merasa bahwa diagnosa model dapat digunakan untuk mengubah model harus menjalankan proses itu dalam loop bootstrap untuk memperkirakan dengan benar ketidakpastian model yang diinduksi.
sumber
Utas ini cukup lama, tetapi saya pikir akan bermanfaat untuk menambahkan bahwa, karena baru-baru ini, Anda dapat menggunakan paket DHARMa R untuk mengubah residu dari setiap GL (M) M menjadi ruang standar. Setelah ini dilakukan, Anda dapat menilai / menguji masalah residual secara visual seperti penyimpangan dari distribusi, ketergantungan residual pada prediktor, heteroskedastisitas, atau autokorelasi dengan cara normal. Lihat sketsa paket untuk contoh yang dikerjakan, juga pertanyaan lain tentang CV di sini dan di sini .
sumber