Saya melakukan regresi logistik dengan variabel independen dan pengamatan. Saya mengevaluasi kecocokan model untuk menentukan apakah data memenuhi asumsi model dan telah menghasilkan plot sisa binned berikut menggunakan paket:arm
R
Jelas ada beberapa tanda-tanda buruk dalam plot ini: banyak poin berada di luar band kepercayaan dan ada pola yang berbeda dengan residu. Pertanyaan saya adalah - dapatkah saya melampirkan masalah ini pada asumsi spesifik dari model regresi logistik? Sebagai contoh, dapatkah saya mengatakan bahwa ada bukti non-linearitas dalam variabel independen atau heteroskedastisitas? Jika tidak, adakah diagnostik lain yang dapat saya hasilkan untuk membantu mengidentifikasi di mana masalahnya?
Berdasarkan jawaban Daniel, tampaknya masalah utamanya adalah saya menggunakan residu pada skala logit tetapi nilai yang diharapkan pada skala respons. Jika saya mereproduksi plot dengan residu juga pada skala respons, sepertinya ini:
yang jauh lebih bisa dipercaya.
sumber
Jawaban:
Entah saya salah menafsirkan plot Anda atau ada beberapa masalah. Fakta bahwa Anda memiliki residu negatif untuk hampir nilai yang diharapkan 0 menyiratkan bahwa model Anda memprediksi nilai negatif. Ini seharusnya tidak mungkin untuk model regresi logistik yang hanya memprediksi dalam interval (0, 1), kecuali jika Anda menggunakan output log-odds dari model di mana kesalahan residual kasus harus ditentukan. Karena regresi logistik adalah metode klasifikasi, lebih berguna untuk melihat matriks kebingungan terlebih dahulu. Anda juga harus menentukan apakah grafik didasarkan pada data kereta atau set tes terpisah.
sumber