Saya memiliki GLMM dengan distribusi binomial dan fungsi tautan logit dan saya merasa bahwa aspek penting dari data tidak terwakili dengan baik dalam model.
Untuk menguji ini, saya ingin tahu apakah data dijelaskan dengan baik oleh fungsi linear pada skala logit. Oleh karena itu, saya ingin tahu apakah residunya berperilaku baik. Namun, saya tidak dapat mengetahui di mana residual plot untuk plot dan bagaimana menafsirkan plot.
Perhatikan bahwa saya menggunakan versi baru lme4 ( versi pengembangan dari GitHub ):
packageVersion("lme4")
## [1] ‘1.1.0’
Pertanyaan saya adalah: Bagaimana cara saya memeriksa dan menginterpretasikan residual dari model campuran linear binomial umum dengan fungsi link logit?
Data berikut ini hanya mewakili 17% dari data asli saya, tetapi pemasangan sudah memakan waktu sekitar 30 detik pada mesin saya, jadi saya membiarkannya seperti ini:
require(lme4)
options(contrasts=c('contr.sum', 'contr.poly'))
dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif")
dat$V1 <- factor(dat$V1)
m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial)
Plot paling sederhana ( ?plot.merMod
) menghasilkan yang berikut:
plot(m1)
Apakah ini sudah memberitahuku sesuatu?
type=c("p","smooth")
diplot.merMod
, atau pindah keggplot
jika Anda ingin interval kepercayaan) adalah bahwa sepertinya ada pola kecil tapi signifikan, yang Anda mungkin dapat memperbaikinya dengan mengadopsi fungsi tautan yang berbeda. Sejauh ini ...true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1)
kerja model ? Akan model memberi perkiraan interaksi antaradistance*consequent
,distance*direction
,distance*dist
dan kemiringandirection
dandist
yang bervariasi denganV1
? Apa yang(consequent+direction+dist)^2
ditunjukkan oleh bujur sangkar ?Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.123941 (tol = 0.001, component 1)
. MengapaJawaban:
Jawaban singkat karena saya tidak punya waktu untuk lebih baik: ini adalah masalah yang menantang; data biner hampir selalu membutuhkan semacam binning atau smoothing untuk menilai goodness of fit. Itu agak membantu untuk menggunakan
fortify.lmerMod
(darilme4
, eksperimental) dalam hubungannya denganggplot2
dan terutamageom_smooth()
untuk menggambar pada dasarnya plot sisa-vs-pas yang sama yang Anda miliki di atas, tetapi dengan interval kepercayaan (saya juga mempersempit batas y sedikit untuk memperbesar pada ( -5,5) wilayah). Itu menyarankan beberapa variasi sistematis yang dapat ditingkatkan dengan mengubah fungsi tautan. (Saya juga mencoba merencanakan residu melawan prediktor lain, tetapi itu tidak terlalu berguna.)Saya mencoba menyesuaikan model dengan semua interaksi 3-arah, tetapi tidak banyak perbaikan baik dalam penyimpangan atau dalam bentuk kurva residu yang dihaluskan.
Lihat juga: http://freakonometrics.hypotheses.org/8210
sumber
Ini adalah tema yang sangat umum pada kursus biostatistik / epidemiologi, dan tidak ada solusi yang sangat baik untuk itu, pada dasarnya karena sifat model. Seringkali solusinya adalah menghindari diagnostik terperinci menggunakan residu.
Ben sudah menulis bahwa diagnostik sering kali memerlukan binning atau smoothing. Binning residual adalah (atau) tersedia di R lengan paket, lihat misalnya, thread ini . Selain itu, ada beberapa pekerjaan yang dilakukan yang menggunakan probabilitas yang diprediksi; satu kemungkinan adalah plot pemisahan yang telah dibahas sebelumnya di utas ini . Mereka mungkin atau mungkin tidak secara langsung membantu dalam kasus Anda, tetapi dapat membantu interpretasi.
sumber
Anda bisa menggunakan AIC alih-alih plot residual untuk memeriksa kecocokan model. Perintah dalam R: AIC (model1) itu akan memberi Anda angka ... jadi Anda perlu membandingkan ini dengan model lain (misalnya dengan lebih banyak prediktor) - AIC (model2), yang akan menghasilkan nomor lain. Bandingkan kedua output, dan Anda ingin model dengan nilai AIC yang lebih rendah.
Ngomong-ngomong, hal-hal seperti AIC dan rasio kemungkinan log sudah terdaftar ketika Anda mendapatkan ringkasan dari model glmer Anda, dan keduanya akan memberi Anda informasi yang berguna tentang kecocokan model. Anda ingin angka negatif besar untuk rasio kemungkinan log untuk menolak hipotesis nol.
sumber
Plot yang dipasang vs residual tidak boleh menunjukkan pola (jelas) apa pun. Plot menunjukkan bahwa model tidak berfungsi dengan baik dengan data. Lihat http://www.r-bloggers.com/model-validation-interpreting-residual-plots/
sumber