Menafsirkan plot residual binned dalam regresi logistik

8

Saya melakukan regresi logistik dengan variabel independen dan pengamatan. Saya mengevaluasi kecocokan model untuk menentukan apakah data memenuhi asumsi model dan telah menghasilkan plot sisa binned berikut menggunakan paket:24123,996arm R

masukkan deskripsi gambar di sini

Jelas ada beberapa tanda-tanda buruk dalam plot ini: banyak poin berada di luar band kepercayaan dan ada pola yang berbeda dengan residu. Pertanyaan saya adalah - dapatkah saya melampirkan masalah ini pada asumsi spesifik dari model regresi logistik? Sebagai contoh, dapatkah saya mengatakan bahwa ada bukti non-linearitas dalam variabel independen atau heteroskedastisitas? Jika tidak, adakah diagnostik lain yang dapat saya hasilkan untuk membantu mengidentifikasi di mana masalahnya?


Berdasarkan jawaban Daniel, tampaknya masalah utamanya adalah saya menggunakan residu pada skala logit tetapi nilai yang diharapkan pada skala respons. Jika saya mereproduksi plot dengan residu juga pada skala respons, sepertinya ini:

masukkan deskripsi gambar di sini

yang jauh lebih bisa dipercaya.

M. Berk
sumber
1
Tolong jelaskan teori statistik yang menyiratkan bahwa plot residual seperti itu berguna.
Frank Harrell
@FrankHarrell Lihat diskusi Gambar 17 dalam Gelman et al (2000) "Pemeriksaan diagnostik untuk model regresi data diskrit menggunakan simulasi prediksi posterior" - tersedia di sini: stat.columbia.edu/ ~gelman / research / published / dogs.pdf . Juga halaman 97 dari Andrew Gelman dan Jennifer Hill, Analisis Data Menggunakan Regresi dan Model Bertingkat / Hirarki, Cambridge University Press
M. Berk
Bisakah Anda meringkas apa yang sebenarnya Anda coba lakukan dengan plot seperti itu? Untuk regresi logistik biner tidak ada asumsi distribusi, dan untuk asumsi regresi yang terbaik adalah menyesuaikan model secara fleksibel (regresi splines, dll.) Atau menggunakan plot residual parsial tradisional.
Frank Harrell
@ Frankharrell Saya telah mengedit pertanyaan untuk mengklarifikasi bahwa saya mencoba menilai apakah data memenuhi asumsi model. Terima kasih atas pengantar sebagian plot sisa, saya pikir ini persis apa yang saya cari.
M. Berk

Jawaban:

4

Entah saya salah menafsirkan plot Anda atau ada beberapa masalah. Fakta bahwa Anda memiliki residu negatif untuk hampir nilai yang diharapkan 0 menyiratkan bahwa model Anda memprediksi nilai negatif. Ini seharusnya tidak mungkin untuk model regresi logistik yang hanya memprediksi dalam interval (0, 1), kecuali jika Anda menggunakan output log-odds dari model di mana kesalahan residual kasus harus ditentukan. Karena regresi logistik adalah metode klasifikasi, lebih berguna untuk melihat matriks kebingungan terlebih dahulu. Anda juga harus menentukan apakah grafik didasarkan pada data kereta atau set tes terpisah.

Daniel Mahler
sumber
Saya yakin Anda telah mengidentifikasi masalah dengan benar. Saya mendapatkan residu pada skala logit dan nilai-nilai yang dipasang pada skala respons (yaitu antara 0 dan 1). Saya telah mereproduksi plot dengan residu pada skala respons dan terlihat jauh lebih dapat dipercaya.
M. Berk