Adakah yang bisa memberi tahu saya cara menafsirkan plot 'residual vs pas', 'q-q normal', 'skala-lokasi', dan 'residual vs leverage'? Saya memasang GLM binomial, menyimpannya dan merencanakannya.
r
logistic
data-visualization
generalized-linear-model
qq-plot
Musim panas
sumber
sumber
Jawaban:
R
tidak memilikiplot.glm()
metode yang berbeda . Ketika Anda cocok dengan modelglm()
dan menjalankannyaplot()
, ia memanggil ? Plot.lm , yang sesuai untuk model linier (yaitu, dengan istilah kesalahan yang terdistribusi normal).Secara umum, arti plot ini (setidaknya untuk model linier) dapat dipelajari di berbagai utas yang ada di CV (mis: Residual vs Dipasang ; plot qq di beberapa tempat: 1 , 2 , 3 ; Skala-Lokasi ; Residuals vs Leverage ). Namun, interpretasi tersebut umumnya tidak valid ketika model yang dimaksud adalah regresi logistik.
Lebih khusus lagi, plot akan sering 'terlihat lucu' dan membuat orang percaya bahwa ada sesuatu yang salah dengan model ketika itu baik-baik saja. Kita dapat melihat ini dengan melihat plot-plot tersebut dengan beberapa simulasi sederhana di mana kita tahu modelnya benar:
Sekarang mari kita lihat plot yang kita dapatkan
plot.lm()
:Baik
Residuals vs Fitted
danScale-Location
plot terlihat seperti ada masalah dengan model, tetapi kita tahu tidak ada. Plot-plot ini, yang dimaksudkan untuk model linier, seringkali menyesatkan ketika digunakan dengan model regresi logistik.Mari kita lihat contoh lain:
Sekarang semua plot terlihat aneh.
Jadi, apa yang ditunjukkan plot ini kepada Anda?
Residuals vs Fitted
Plot dapat membantu Anda melihat, misalnya, jika ada tren lengkung yang Anda tidak terjawab. Tetapi kecocokan dari regresi logistik pada dasarnya bersifat lengkung, sehingga Anda dapat memiliki tren yang tampak aneh dalam residu tanpa ada yang salah.Normal Q-Q
Plot membantu Anda mendeteksi jika residual Anda didistribusikan secara normal. Tetapi residual penyimpangan tidak harus didistribusikan secara normal agar model menjadi valid, sehingga normalitas / non-normal residual tidak selalu memberi tahu Anda apa pun.Scale-Location
Plot dapat membantu Anda mengidentifikasi heteroskedastisitas. Tetapi model regresi logistik secara alami cukup heteroskedastik.Residuals vs Leverage
dapat membantu Anda mengidentifikasi kemungkinan outlier. Tetapi pencilan dalam regresi logistik tidak harus bermanifestasi dengan cara yang sama seperti dalam regresi linier, jadi plot ini mungkin atau mungkin tidak membantu dalam mengidentifikasi mereka.Pelajaran sederhana yang bisa diambil di sini adalah bahwa plot ini bisa sangat sulit digunakan untuk membantu Anda memahami apa yang sedang terjadi dengan model regresi logistik Anda. Mungkin yang terbaik bagi orang untuk tidak melihat plot ini sama sekali ketika menjalankan regresi logistik, kecuali mereka memiliki keahlian yang cukup.
sumber
Baca lebih lanjut tentang asumsi regresi karena dalam banyak aspek ada yang serupa (misalnya di sini , atau tutorial tentang regresi dalam R di sini ).
sumber