Asumsi model linier umum

9

Pada halaman 232 dari "Teman R untuk menerapkan regresi" catatan Fox dan Weisberg

Hanya keluarga Gaussian yang memiliki varian konstan, dan dalam semua GLM lainnya, varian bersyarat dari y pada tergantung pada μ ( x )xμ(x)

Sebelumnya, mereka mencatat bahwa varian bersyarat dari Poisson adalah dan bahwa dari binomial adalah .μ ( 1 - μ )μμ(1-μ)N

Bagi Gaussian, ini adalah asumsi yang lazim dan sering diperiksa (homoscedasticity). Demikian pula, saya sering melihat varian bersyarat dari Poisson dibahas sebagai asumsi regresi Poisson, bersama dengan solusi untuk kasus-kasus ketika dilanggar (misalnya binomial negatif, inflasi nol, dll). Namun saya tidak pernah melihat perbedaan kondisional untuk binomial yang dibahas sebagai asumsi dalam regresi logistik. Sedikit Googling tidak menemukan menyebutkannya.

Apa yang kulewatkan di sini?

Sunting setelah komentar @whuber:

Seperti yang disarankan saya mencari melalui Hosmer & Lemeshow. Ini menarik dan saya pikir itu menunjukkan mengapa saya (dan mungkin orang lain) bingung. Misalnya, kata "asumsi" tidak ada dalam indeks ke buku. Selain itu, kami memiliki ini (hlm. 175)

Dalam regresi logistik kita harus mengandalkan terutama pada penilaian visual, karena distribusi diagnostik di bawah hipotesis yang sesuai dengan model hanya diketahui dalam pengaturan terbatas tertentu.

Mereka menunjukkan beberapa plot, tetapi berkonsentrasi pada sebar berbagai residu vs perkiraan probabilitas. Plot-plot ini (bahkan untuk model yang baik, tidak memiliki karakteristik pola "blobby" dari plot-plot serupa dalam regresi OLS, dan karenanya lebih sulit untuk menilai. Lebih lanjut, plot-plot ini tidak menunjukkan apa pun yang mirip dengan plot-plot kuantil.

Di R, plot.lm menawarkan serangkaian plot standar yang bagus untuk menilai model; Saya tidak tahu yang setara dengan regresi logistik, meskipun mungkin ada dalam beberapa paket. Ini mungkin karena plot yang berbeda akan diperlukan untuk setiap jenis model. SAS memang menawarkan beberapa bidang dalam PROC LOGISTIC.

Ini tentu saja tampaknya menjadi daerah yang berpotensi kebingungan!

Peter Flom
sumber
3
Jika Anda memiliki salinan Hosmer & Lemeshow, Regresi Logistik Terapan, maka periksa bab "Menilai kecocokan model": varian bersyarat dari Binomial muncul di mana - mana dan secara eksplisit diperhitungkan di hampir semua tes GoF.
whuber
1
Saya pikir asumsi binomial dipaksakan oleh percobaan nyata: tanggapan independen 0/1 sehingga distribusi binomial adalah satu-satunya yang memodelkan eksperimen nyata. Sebaliknya asumsi distribusi Poisson untuk perhitungan tidak realistis.
Stéphane Laurent
1
Terima kasih @whuber. Saya memiliki buku itu dan akan memeriksanya
Peter Flom
... tetapi fungsi tautannya tidak alami dan menentukan varian bersyarat ... jadi komentar saya di atas tidak terlalu masuk akal
Stéphane Laurent

Jawaban:

3

Plot-plot ini (bahkan untuk model yang baik, tidak memiliki karakteristik pola "blobby" dari plot-plot serupa dalam regresi OLS, dan karenanya lebih sulit untuk menilai. Lebih jauh, plot-plot ini tidak menunjukkan apa pun yang mirip dengan plot-plot kuantil.

Paket DHARMa R memecahkan masalah ini dengan mensimulasikan dari model yang dipasang untuk mengubah residu dari setiap GL (M) M menjadi ruang standar. Setelah ini dilakukan, semua metode reguler untuk secara visual dan formal menilai masalah residu (misalnya plot qq, penyebaran berlebihan, heteroskedastisitas, autokorelasi) dapat diterapkan. Lihat sketsa paket untuk contoh yang dikerjakan.

Mengenai komentar @Otto_K: jika overdispersi homogen adalah satu-satunya masalah, mungkin lebih mudah untuk menggunakan efek acak tingkat pengamatan, yang dapat diimplementasikan dengan GLMM binomial standar. Namun, saya pikir @PeterFlom prihatin juga tentang heteroskedastisitas, yaitu perubahan parameter dispersi dengan beberapa prediksi atau prediksi model. Ini tidak akan diambil / dikoreksi dengan pemeriksaan / koreksi overdispersi standar, tetapi Anda dapat melihatnya di plot residu DHARMa. Untuk memperbaikinya, memodelkan dispersi sebagai fungsi dari sesuatu yang lain di JAGS atau STAN mungkin merupakan satu-satunya cara saat ini.

Florian Hartig
sumber
1

Topik yang Anda jelaskan sering disebut penyebaran berlebihan . Dalam pekerjaan saya, saya melihat solusi yang mungkin untuk topik tersebut:

Menggunakan pendekatan Bayesian, dan memperkirakan distribusi Beta-Binomial. Ini memiliki keuntungan besar untuk distribusi lain (diinduksi oleh prior lain), untuk memiliki solusi bentuk tertutup.

Referensi:

Otto_K
sumber