Pada halaman 232 dari "Teman R untuk menerapkan regresi" catatan Fox dan Weisberg
Hanya keluarga Gaussian yang memiliki varian konstan, dan dalam semua GLM lainnya, varian bersyarat dari y pada tergantung pada μ ( x )
Sebelumnya, mereka mencatat bahwa varian bersyarat dari Poisson adalah dan bahwa dari binomial adalah .μ ( 1 - μ )
Bagi Gaussian, ini adalah asumsi yang lazim dan sering diperiksa (homoscedasticity). Demikian pula, saya sering melihat varian bersyarat dari Poisson dibahas sebagai asumsi regresi Poisson, bersama dengan solusi untuk kasus-kasus ketika dilanggar (misalnya binomial negatif, inflasi nol, dll). Namun saya tidak pernah melihat perbedaan kondisional untuk binomial yang dibahas sebagai asumsi dalam regresi logistik. Sedikit Googling tidak menemukan menyebutkannya.
Apa yang kulewatkan di sini?
Sunting setelah komentar @whuber:
Seperti yang disarankan saya mencari melalui Hosmer & Lemeshow. Ini menarik dan saya pikir itu menunjukkan mengapa saya (dan mungkin orang lain) bingung. Misalnya, kata "asumsi" tidak ada dalam indeks ke buku. Selain itu, kami memiliki ini (hlm. 175)
Dalam regresi logistik kita harus mengandalkan terutama pada penilaian visual, karena distribusi diagnostik di bawah hipotesis yang sesuai dengan model hanya diketahui dalam pengaturan terbatas tertentu.
Mereka menunjukkan beberapa plot, tetapi berkonsentrasi pada sebar berbagai residu vs perkiraan probabilitas. Plot-plot ini (bahkan untuk model yang baik, tidak memiliki karakteristik pola "blobby" dari plot-plot serupa dalam regresi OLS, dan karenanya lebih sulit untuk menilai. Lebih lanjut, plot-plot ini tidak menunjukkan apa pun yang mirip dengan plot-plot kuantil.
Di R, plot.lm menawarkan serangkaian plot standar yang bagus untuk menilai model; Saya tidak tahu yang setara dengan regresi logistik, meskipun mungkin ada dalam beberapa paket. Ini mungkin karena plot yang berbeda akan diperlukan untuk setiap jenis model. SAS memang menawarkan beberapa bidang dalam PROC LOGISTIC.
Ini tentu saja tampaknya menjadi daerah yang berpotensi kebingungan!
sumber
Jawaban:
Paket DHARMa R memecahkan masalah ini dengan mensimulasikan dari model yang dipasang untuk mengubah residu dari setiap GL (M) M menjadi ruang standar. Setelah ini dilakukan, semua metode reguler untuk secara visual dan formal menilai masalah residu (misalnya plot qq, penyebaran berlebihan, heteroskedastisitas, autokorelasi) dapat diterapkan. Lihat sketsa paket untuk contoh yang dikerjakan.
Mengenai komentar @Otto_K: jika overdispersi homogen adalah satu-satunya masalah, mungkin lebih mudah untuk menggunakan efek acak tingkat pengamatan, yang dapat diimplementasikan dengan GLMM binomial standar. Namun, saya pikir @PeterFlom prihatin juga tentang heteroskedastisitas, yaitu perubahan parameter dispersi dengan beberapa prediksi atau prediksi model. Ini tidak akan diambil / dikoreksi dengan pemeriksaan / koreksi overdispersi standar, tetapi Anda dapat melihatnya di plot residu DHARMa. Untuk memperbaikinya, memodelkan dispersi sebagai fungsi dari sesuatu yang lain di JAGS atau STAN mungkin merupakan satu-satunya cara saat ini.
sumber
Topik yang Anda jelaskan sering disebut penyebaran berlebihan . Dalam pekerjaan saya, saya melihat solusi yang mungkin untuk topik tersebut:
Menggunakan pendekatan Bayesian, dan memperkirakan distribusi Beta-Binomial. Ini memiliki keuntungan besar untuk distribusi lain (diinduksi oleh prior lain), untuk memiliki solusi bentuk tertutup.
Referensi:
sumber