Dalam menjawab pertanyaan ini John Christie menyarankan agar kecocokan model regresi logistik harus dinilai dengan mengevaluasi residu. Saya akrab dengan cara menafsirkan residu dalam OLS, mereka berada dalam skala yang sama dengan DV dan sangat jelas perbedaan antara y dan y yang diprediksi oleh model. Namun untuk regresi logistik, di masa lalu saya biasanya hanya memeriksa perkiraan kecocokan model, misalnya AIC, karena saya tidak yakin apa artinya residu untuk regresi logistik. Setelah melihat ke dalam file bantuan R sedikit saya melihat bahwa di R ada lima jenis residu glm yang tersedia c("deviance", "pearson", "working","response", "partial")
,. File bantuan merujuk ke:
- Davison, AC dan Snell, EJ (1991) Residual dan diagnostik. Dalam: Teori dan Pemodelan Statistik. Untuk Kehormatan Sir David Cox, FRS , eds. Hinkley, DV, Reid, N. dan Snell, EJ, Chapman & Hall.
Saya tidak punya salinannya. Apakah ada cara singkat untuk menggambarkan cara menafsirkan masing-masing jenis ini? Dalam konteks logistik akankah jumlah residu kuadrat memberikan ukuran yang sesuai dari model yang cocok atau lebih baik dengan Kriteria Informasi?
binnedplot
fungsi di lengan paket R memberikan plot residu yang sangat membantu. Ini dijelaskan dengan baik pada hal.97-101 dari Gelman dan Hill 2007 .Jawaban:
Residu termudah untuk dipahami adalah residu penyimpangan seperti ketika kuadrat jumlah ini menjadi -2 kali log-kemungkinan. Dalam istilah yang paling sederhana, regresi logistik dapat dipahami dalam hal pemasangan fungsi untuk diketahui sedemikian rupa untuk meminimalkan penyimpangan total, yang merupakan penjumlahan residu penyimpangan kuadrat dari semua titik data.Xp=logit−1(Xβ) X
Penyimpangan (kuadrat) dari setiap titik data sama dengan (-2 kali) logaritma perbedaan antara probabilitas yang diprediksinya dan komplemen dari nilai aktualnya (1 untuk kontrol; a 0 untuk kasus) dalam istilah absolut. Kesesuaian titik yang sempurna (yang tidak pernah terjadi) memberikan penyimpangan nol karena log (1) adalah nol. Titik yang tidak pas memiliki penyimpangan residu yang besar karena -2 kali log dari nilai yang sangat kecil adalah angka yang besar.logit−1(Xβ)
Melakukan regresi logistik mirip dengan menemukan nilai beta sedemikian rupa sehingga jumlah residu penyimpangan kuadrat diminimalkan.
Ini dapat diilustrasikan dengan plot, tetapi saya tidak tahu cara mengunggahnya.
sumber
plogit
? Tidak jelas apakah Anda mendefinisikannya di sini atau mendapatkannya dari tempat lain.plogit
ada di R (statistik), tidak perlu paket (setidaknya tidak lagi)Pada residu Pearsons,
Residu Pearson adalah perbedaan antara probabilitas yang diamati dan yang diperkirakan dibagi dengan standar deviasi binomial dari probabilitas yang diperkirakan. Oleh karena itu standarisasi residunya. Untuk sampel besar residu standar harus memiliki distribusi normal.
Dari Menard, Scott (2002). Analisis regresi logistik terapan, Edisi ke-2. Thousand Oaks, CA: Sage Publications. Seri: Aplikasi Kuantitatif dalam Ilmu Sosial, No. 106. Ed pertama, 1995. Lihat Bab 4.4
sumber
Residual yang bekerja adalah residu dalam iterasi akhir dari setiap metode kuadrat terkecil tertimbang . Saya rasa itu berarti residu ketika kita berpikir itu adalah iterasi terakhir dari model yang kita jalankan. Itu bisa memunculkan diskusi bahwa model running adalah latihan yang berulang.
sumber