Saat ini saya kesulitan menemukan model yang tepat untuk data penghitungan yang sulit (variabel dependen). Saya telah mencoba berbagai model yang berbeda (model efek campuran diperlukan untuk jenis data saya) seperti lmer
dan lme4
(dengan log transformasi) serta model efek campuran linier umum dengan berbagai keluarga seperti Gaussian atau binomial negatif.
Namun, saya tidak yakin bagaimana cara mendiagnosis dengan tepat hasil yang sesuai. Saya menemukan banyak pendapat berbeda tentang topik itu di Web. Saya pikir diagnostik pada regresi linier (campuran) cukup mudah. Anda dapat melanjutkan dan menganalisis residual (normalitas) serta mempelajari heteroskedastisitas dengan memplot nilai-nilai yang sesuai dibandingkan dengan residual.
Namun, bagaimana Anda melakukannya dengan benar untuk versi umum? Mari kita fokus pada regresi binomial (campuran) negatif untuk saat ini. Saya telah melihat pernyataan yang sangat bertentangan mengenai residu di sini:
Dalam Memeriksa residual untuk normalitas dalam model linier umum , ditunjukkan dalam jawaban pertama bahwa residu polos tidak terdistribusi normal untuk GLM; Saya pikir ini jelas. Namun, kemudian ditunjukkan bahwa residu Pearson dan penyimpangan juga tidak seharusnya normal. Namun, jawaban kedua menyatakan bahwa residu penyimpangan harus didistribusikan secara normal (dikombinasikan dengan referensi).
Residual penyimpangan yang seharusnya didistribusikan secara normal diisyaratkan dalam dokumentasi untuk ? Glm.diag.plots (dari
boot
paket R ).Dalam posting blog ini , penulis pertama kali mempelajari normalitas dari apa yang saya asumsikan adalah residu Pearson untuk model regresi efek-campuran NB. Seperti yang diharapkan (menurut pendapat jujur saya) residu tidak menunjukkan normal dan penulis menganggap model ini tidak sesuai. Namun, sebagaimana dinyatakan dalam komentar, residu harus didistribusikan sesuai dengan distribusi binomial negatif. Menurut pendapat saya, ini paling mendekati kebenaran karena residu GLM dapat memiliki distribusi lain dari yang normal. Apakah ini benar? Bagaimana cara memeriksa hal-hal seperti heteroskedastisitas di sini?
Poin terakhir (memplot residu terhadap kuantil dari estimasi distribusi) ditekankan dalam Ben & Yohai (2004) . Saat ini, ini sepertinya cara untuk saya.
Singkatnya: Bagaimana Anda mempelajari dengan benar model yang sesuai dari model regresi linier umum (campuran) secara khusus dengan fokus pada residu?
glm.diag.plots
mengatakan itu untuk sisa penyimpangan jackknifed (saya menduga perbedaan itu penting). Saya juga mengumpulkan data jumlah ; Anda mungkin ingin fokus pada fakta itu. Misalnya, jumlah dianggap (dalam beberapa hal) menjadi heteroscedastic. Plot diagnostik untuk regresi jumlah harus membantu Anda (meskipun tidak membahas aspek efek campuran).Jawaban:
Jawaban ini tidak didasarkan pada pengetahuan saya melainkan mengutip apa yang Bolker dkk. (2009) menulis dalam makalah berpengaruh dalam jurnal Trends in Ecology and Evolution . Karena artikel ini bukan akses terbuka (walaupun mencarinya di Google sarjana mungkin terbukti berhasil, saya pikir saya mengutip bagian-bagian penting yang mungkin membantu untuk mengatasi sebagian dari pertanyaan. Jadi sekali lagi, bukan itu yang saya pikirkan sendiri tetapi saya pikir itu merupakan informasi terkondensasi terbaik tentang GLMM (termasuk diagnosa) di luar sana dalam gaya tulisan yang sangat lurus ke depan dan mudah dimengerti.Jika jawaban ini tidak cocok untuk alasan apa pun, saya hanya akan menghapusnya. Hal-hal yang saya temukan berguna sehubungan dengan pertanyaan tentang diagnostik disorot diberani .
Halaman 127:
Halaman 129, Kotak 1:
Halaman 133, Kotak 4:
Plot residual harus digunakan untuk menilai penyebaran berlebihan dan varian yang diubah harus homogen di seluruh kategori. Tidak ada dalam artikel yang disebutkan bahwa residu seharusnya didistribusikan secara normal.
Saya pikir alasan mengapa ada pernyataan yang berbeda mencerminkan bahwa GLMM (halaman 127-128) ...
Dan berikut adalah beberapa contoh yang berfungsi penuh menggunakan GLMM termasuk diagnostik.
Saya menyadari bahwa jawaban ini lebih seperti komentar dan harus diperlakukan seperti itu. Tetapi bagian komentar tidak memungkinkan saya untuk menambahkan komentar yang panjang. Juga karena saya percaya makalah ini bermanfaat untuk diskusi ini (tapi sayangnya di balik tembok pembayaran), saya pikir akan bermanfaat untuk mengutip bagian-bagian penting di sini.
Makalah yang dikutip:
[15] - GP Quinn, MJ Keough (2002): Desain Eksperimental dan Analisis Data untuk Ahli Biologi, Cambridge University Press.
[16] - MJ Crawley (2002): Komputasi Statistik: Pengantar Analisis Data Menggunakan S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Model Efek Campuran dalam S dan S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Informasi Akaike bersyarat untuk model efek campuran. Biometrika, 92, hlm. 351–370.
[50] - A. Gelman, J. Hill (2006): Analisis Data Menggunakan Regresi dan Model Multilevel / Hirarki, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.
[65] - FJ Harrell (2001): Strategi Pemodelan Regresi, Springer.
[66] - JK Lindsey (1997): Menerapkan Generalized Linear Models, Springer.
[67] - W. Venables, BD Ripley (2002): Statistik Terapan Modern dengan S, Springer.
sumber
Ini adalah pertanyaan lama, tetapi saya pikir akan bermanfaat untuk menambahkan bahwa opsi 4 yang disarankan oleh OP sekarang tersedia dalam paket DHARMa R (tersedia dari CRAN, lihat di sini ).
Paket membuat pemeriksaan residu visual yang disarankan oleh jawaban yang diterima jauh lebih dapat diandalkan / mudah.
Dari deskripsi paket:
sumber