Meskipun pertanyaan ini dan jawaban pertamanya tampaknya difokuskan pada masalah teoritis kalibrasi model regresi logistik, masalah:
Bagaimana seseorang dapat merusak kalibrasi dari regresi logistik ...?
patut mendapat perhatian sehubungan dengan aplikasi dunia nyata, untuk pembaca masa depan halaman ini. Kita tidak boleh lupa bahwa model regresi logistik harus ditentukan dengan baik, dan bahwa masalah ini bisa sangat menyulitkan untuk regresi logistik.
Pertama, jika log-odds keanggotaan kelas tidak linier terkait dengan prediktor yang termasuk dalam model maka itu tidak akan dikalibrasi dengan baik. Bab 10 Harrell tentang Regresi Logistik Biner mencurahkan sekitar 20 halaman untuk "Penilaian Model Fit" sehingga orang dapat mengambil keuntungan dari "ketidakberpihakan asimtotik dari estimator kemungkinan maksimum," seperti yang dikatakan @whuber dalam praktiknya.
Kedua, spesifikasi model adalah masalah khusus dalam regresi logistik, karena memiliki bias variabel yang dihilangkan yang dapat mengejutkan bagi mereka yang memiliki latar belakang dalam regresi linier biasa. Seperti yang dikatakan halaman itu:
Variabel yang dihilangkan akan bias koefisien pada variabel yang disertakan bahkan jika variabel yang dihilangkan tidak berkorelasi dengan variabel yang disertakan.
Halaman itu juga memiliki penjelasan yang berguna tentang mengapa perilaku ini diharapkan, dengan penjelasan teoretis untuk model probit terkait yang dapat ditelusuri secara analitis. Jadi, kecuali Anda tahu bahwa Anda telah memasukkan semua prediktor yang terkait dengan keanggotaan kelas, Anda mungkin menghadapi bahaya kesalahan spesifikasi dan kalibrasi yang buruk dalam praktiknya.
Sehubungan dengan spesifikasi model, sangat mungkin bahwa metode berbasis pohon seperti hutan acak, yang tidak mengasumsikan linieritas pada seluruh rentang nilai prediktor dan secara inheren memberikan kemungkinan untuk menemukan dan termasuk interaksi di antara para prediktor, akan berakhir dengan lebih baik- Model yang dikalibrasi dalam praktik daripada model regresi logistik yang tidak memperhitungkan istilah interaksi atau non-linearitas cukup. Sehubungan dengan bias variabel yang dihilangkan, tidak jelas bagi saya apakah ada metode untuk mengevaluasi probabilitas keanggotaan kelas dapat menangani masalah itu secara memadai.