Interpretasi plot (glm.model)

Adakah yang bisa memberi tahu saya cara menafsirkan plot 'residual vs pas', 'q-q normal', 'skala-lokasi', dan 'residual vs leverage'? Saya memasang GLM binomial, menyimpannya dan merencanakannya.

r logistic data-visualization generalized-linear-model qq-plot Musim panas
sumber

Apakah Anda tahu cara menginterpretasikan plot-plot itu ketika berhadapan dengan regresi linier reguler? Karena itu harus menjadi titik awal Anda.

Steve S

Jawaban:

Rtidak memiliki plot.glm()metode yang berbeda . Ketika Anda cocok dengan model glm()dan menjalankannya plot(), ia memanggil ? Plot.lm , yang sesuai untuk model linier (yaitu, dengan istilah kesalahan yang terdistribusi normal).

Secara umum, arti plot ini (setidaknya untuk model linier) dapat dipelajari di berbagai utas yang ada di CV (mis: Residual vs Dipasang ; plot qq di beberapa tempat: 1 , 2 , 3 ; Skala-Lokasi ; Residuals vs Leverage ). Namun, interpretasi tersebut umumnya tidak valid ketika model yang dimaksud adalah regresi logistik.

Lebih khusus lagi, plot akan sering 'terlihat lucu' dan membuat orang percaya bahwa ada sesuatu yang salah dengan model ketika itu baik-baik saja. Kita dapat melihat ini dengan melihat plot-plot tersebut dengan beberapa simulasi sederhana di mana kita tahu modelnya benar:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

Sekarang mari kita lihat plot yang kita dapatkan plot.lm():

masukkan deskripsi gambar di sini

Baik Residuals vs Fitteddan Scale-Locationplot terlihat seperti ada masalah dengan model, tetapi kita tahu tidak ada. Plot-plot ini, yang dimaksudkan untuk model linier, seringkali menyesatkan ketika digunakan dengan model regresi logistik.

Mari kita lihat contoh lain:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

masukkan deskripsi gambar di sini

Sekarang semua plot terlihat aneh.

Jadi, apa yang ditunjukkan plot ini kepada Anda?

The Residuals vs FittedPlot dapat membantu Anda melihat, misalnya, jika ada tren lengkung yang Anda tidak terjawab. Tetapi kecocokan dari regresi logistik pada dasarnya bersifat lengkung, sehingga Anda dapat memiliki tren yang tampak aneh dalam residu tanpa ada yang salah.
The Normal Q-QPlot membantu Anda mendeteksi jika residual Anda didistribusikan secara normal. Tetapi residual penyimpangan tidak harus didistribusikan secara normal agar model menjadi valid, sehingga normalitas / non-normal residual tidak selalu memberi tahu Anda apa pun.
The Scale-LocationPlot dapat membantu Anda mengidentifikasi heteroskedastisitas. Tetapi model regresi logistik secara alami cukup heteroskedastik.
The Residuals vs Leveragedapat membantu Anda mengidentifikasi kemungkinan outlier. Tetapi pencilan dalam regresi logistik tidak harus bermanifestasi dengan cara yang sama seperti dalam regresi linier, jadi plot ini mungkin atau mungkin tidak membantu dalam mengidentifikasi mereka.

Pelajaran sederhana yang bisa diambil di sini adalah bahwa plot ini bisa sangat sulit digunakan untuk membantu Anda memahami apa yang sedang terjadi dengan model regresi logistik Anda. Mungkin yang terbaik bagi orang untuk tidak melihat plot ini sama sekali ketika menjalankan regresi logistik, kecuali mereka memiliki keahlian yang cukup.

gung - Reinstate Monica
sumber

Astaga, ini adalah respons yang luar biasa.

d8aninja

@ung Bisakah Anda mengatakan apa yang bisa kami lakukan jika itu glm? Apakah ada alternatif untuk QQ, Residual vs Fitted? Misalnya saya merencanakan tautan poisson GLM, tapi saya tidak tahu bagaimana menganalisisnya apakah itu cocok

GRS

@ GRS, coba baca ini .

gung - Reinstate Monica

@ Semua jawaban Anda terperinci dan jelas. Selain membaca dari berbagai sumber termasuk situs ini, dapatkah Anda merujuk satu atau dua buku / situs bagus untuk mendapatkan 'keahlian yang cukup' dalam memahami plot diagnostik? Saya mengerti bahwa hanya sedikit keterampilan yang bisa kita dapatkan dengan latihan dan pengalaman saja tetapi jika ada buku / situs web tertentu yang membahas detail secara mendalam jika Anda bisa merujuk, itu akan sangat membantu.

Dr Nisha Arora

@DrNishaArora, tidak terlalu saya sadari. Ada beberapa buku yang relevan untuk LR, tetapi mereka tidak akan menghabiskan banyak waktu di plot ini, karena alasan yang disebutkan.

gung - Reinstate Monica

Residual vs pas - tidak boleh ada pola yang kuat (pola ringan tidak menjadi masalah, lihat jawaban @ gung) dan tidak ada outlier, residual harus didistribusikan secara acak di sekitar nol.
QQ Normal - residu harus mengelilingi garis diagonal, yaitu harus didistribusikan secara normal (lihat wiki untuk plot QQ ). Plot ini membantu memeriksa apakah kira-kira normal.
Skala-lokasi - seperti yang Anda lihat, pada sumbu Y ada juga residual (seperti pada Residual vs plot yang dipasang), tetapi mereka diskalakan, jadi mirip dengan (1), tetapi dalam beberapa kasus ini berfungsi lebih baik.
Residual vs Leverage - membantu mendiagnosis kasus yang ada. Seperti pada plot sebelumnya, case yang ada diberi nomor, tetapi pada plot ini jika ada case yang sangat berbeda dari data lainnya, mereka diplot di bawah garis merah tipis (periksa wiki pada jarak Cook ).

Baca lebih lanjut tentang asumsi regresi karena dalam banyak aspek ada yang serupa (misalnya di sini , atau tutorial tentang regresi dalam R di sini ).

Tim
sumber

Respons ini salah dalam konteks glm, seperti yang dijelaskan oleh @gung, dalam respons di atas. Jika Anda mencari jawaban untuk pertanyaan ini, BERLIHAT TANGGAPAN INI. Jika Anda adalah penulis tanggapan ini, periksa jawaban di atas oleh gung. Jika Anda setuju, Anda harus mempertimbangkan untuk menghapus respons ini, karena itu menyesatkan.

Colin

@colin Anda ingin mengomentari apa yang sebenarnya salah menurut Anda dengan jawaban ini? Satu-satunya perbedaan antara jawabanku dan jawaban kedua adalah bahwa gung masuk ke rincian lebih lanjut ...

Tim

Anda menggambarkan bagaimana plot ini harus digunakan dalam konteks regresi linier. gung menjelaskan mengapa interpretasi ini gagal dalam kasus ini, karena mereka diterapkan pada model glm binomial. Jadi, jika pengguna menafsirkan plot diagnostik ini seperti yang Anda sarankan (dan saran Anda akan sangat membantu dalam kasus lm), mereka akan keliru menyimpulkan bahwa model mereka melanggar asumsi GLM, padahal kenyataannya tidak.

Colin

Anda menulis, "Residual vs fitting - seharusnya tidak ada pola dan tidak ada outlier, residual harus didistribusikan secara acak sekitar 0." gung menulis, "The Residuals vs Fitted plot dapat membantu Anda melihat, misalnya, jika ada tren lengkung yang Anda lewatkan. Tetapi fit dari regresi logistik pada dasarnya adalah lengkung, sehingga Anda dapat memiliki tren yang tampak aneh di residu tanpa apa pun. salah." ... salah satu dari kalian pasti salah.

Colin

Saya setuju, ini bukan hitam dan putih, tetapi ada banyak contoh di mana ADA tren yang kuat, tetapi model yang ditentukan benar-benar sesuai dengan asumsi Glm tertentu. Oleh karena itu, dengan menyatakan, "seharusnya tidak ada pola dan tidak ada outlier, residu harus didistribusikan secara acak sekitar 0." mudah ditafsirkan bahwa jika ada pola, Anda telah melanggar asumsi model. Ini bukan kasusnya.

Colin