Diagnostik untuk model linier umum (campuran) (khususnya residu)

25

Saat ini saya kesulitan menemukan model yang tepat untuk data penghitungan yang sulit (variabel dependen). Saya telah mencoba berbagai model yang berbeda (model efek campuran diperlukan untuk jenis data saya) seperti lmerdan lme4(dengan log transformasi) serta model efek campuran linier umum dengan berbagai keluarga seperti Gaussian atau binomial negatif.

Namun, saya tidak yakin bagaimana cara mendiagnosis dengan tepat hasil yang sesuai. Saya menemukan banyak pendapat berbeda tentang topik itu di Web. Saya pikir diagnostik pada regresi linier (campuran) cukup mudah. Anda dapat melanjutkan dan menganalisis residual (normalitas) serta mempelajari heteroskedastisitas dengan memplot nilai-nilai yang sesuai dibandingkan dengan residual.

Namun, bagaimana Anda melakukannya dengan benar untuk versi umum? Mari kita fokus pada regresi binomial (campuran) negatif untuk saat ini. Saya telah melihat pernyataan yang sangat bertentangan mengenai residu di sini:

  1. Dalam Memeriksa residual untuk normalitas dalam model linier umum , ditunjukkan dalam jawaban pertama bahwa residu polos tidak terdistribusi normal untuk GLM; Saya pikir ini jelas. Namun, kemudian ditunjukkan bahwa residu Pearson dan penyimpangan juga tidak seharusnya normal. Namun, jawaban kedua menyatakan bahwa residu penyimpangan harus didistribusikan secara normal (dikombinasikan dengan referensi).

  2. Residual penyimpangan yang seharusnya didistribusikan secara normal diisyaratkan dalam dokumentasi untuk ? Glm.diag.plots (dari bootpaket R ).

  3. Dalam posting blog ini , penulis pertama kali mempelajari normalitas dari apa yang saya asumsikan adalah residu Pearson untuk model regresi efek-campuran NB. Seperti yang diharapkan (menurut pendapat jujur ​​saya) residu tidak menunjukkan normal dan penulis menganggap model ini tidak sesuai. Namun, sebagaimana dinyatakan dalam komentar, residu harus didistribusikan sesuai dengan distribusi binomial negatif. Menurut pendapat saya, ini paling mendekati kebenaran karena residu GLM dapat memiliki distribusi lain dari yang normal. Apakah ini benar? Bagaimana cara memeriksa hal-hal seperti heteroskedastisitas di sini?

  4. Poin terakhir (memplot residu terhadap kuantil dari estimasi distribusi) ditekankan dalam Ben & Yohai (2004) . Saat ini, ini sepertinya cara untuk saya.

Singkatnya: Bagaimana Anda mempelajari dengan benar model yang sesuai dari model regresi linier umum (campuran) secara khusus dengan fokus pada residu?

fsociety
sumber
1
Residu untuk GLM tidak secara umum normal (lihat di sini ), tetapi perhatikan bahwa ada banyak jenis residu untuk GLM. Misalnya, glm.diag.plotsmengatakan itu untuk sisa penyimpangan jackknifed (saya menduga perbedaan itu penting). Saya juga mengumpulkan data jumlah ; Anda mungkin ingin fokus pada fakta itu. Misalnya, jumlah dianggap (dalam beberapa hal) menjadi heteroscedastic. Plot diagnostik untuk regresi jumlah harus membantu Anda (meskipun tidak membahas aspek efek campuran).
gung - Reinstate Monica
Saya kenal dengan posting yang Anda sebutkan. Namun, ada juga pernyataan yang menunjukkan bahwa residu (penyimpangan) harus normal "kita melihat residu yang sangat besar dan penyimpangan substansial residu penyimpangan dari normal (semua berbicara menentang Poisson)".
fsociety

Jawaban:

18

Jawaban ini tidak didasarkan pada pengetahuan saya melainkan mengutip apa yang Bolker dkk. (2009) menulis dalam makalah berpengaruh dalam jurnal Trends in Ecology and Evolution . Karena artikel ini bukan akses terbuka (walaupun mencarinya di Google sarjana mungkin terbukti berhasil, saya pikir saya mengutip bagian-bagian penting yang mungkin membantu untuk mengatasi sebagian dari pertanyaan. Jadi sekali lagi, bukan itu yang saya pikirkan sendiri tetapi saya pikir itu merupakan informasi terkondensasi terbaik tentang GLMM (termasuk diagnosa) di luar sana dalam gaya tulisan yang sangat lurus ke depan dan mudah dimengerti.Jika jawaban ini tidak cocok untuk alasan apa pun, saya hanya akan menghapusnya. Hal-hal yang saya temukan berguna sehubungan dengan pertanyaan tentang diagnostik disorot diberani .

Halaman 127:

Para peneliti yang dihadapkan dengan data nonnormal sering mencoba cara pintas seperti mengubah data untuk mencapai normalitas dan homogenitas varians, menggunakan tes nonparametrik atau mengandalkan kekokohan ANOVA klasik untuk nonnormalitas untuk desain seimbang [15]. Mereka mungkin mengabaikan efek acak sama sekali (sehingga melakukan replikasi pseudor) atau memperlakukan mereka sebagai faktor tetap [16]. Namun, pintasan seperti itu dapat gagal (mis. Menghitung data dengan banyak nilai nol tidak dapat dibuat normal dengan transformasi). Bahkan ketika mereka berhasil, mereka mungkin melanggar asumsi statistik (bahkan tes nonparametrik membuat asumsi, misalnya homogenitas varians lintas kelompok) atau membatasi ruang lingkup inferensi (orang tidak dapat memperkirakan perkiraan efek tetap untuk kelompok baru). Alih-alih menyatukan data mereka ke dalam kerangka statistik klasik, peneliti harus menggunakan pendekatan statistik yang sesuai dengan data mereka. Generalized linear mixed models (GLMMs) menggabungkan sifat-sifat dua kerangka kerja statistik yang banyak digunakan dalam ekologi dan evolusi, model campuran linier (yang memasukkan efek acak) dan model linear umum (yang menangani data nonnormal dengan menggunakan fungsi tautan dan keluarga eksponensial [misalnya distribusi normal, Poisson atau binomial]. GLMM adalah alat terbaik untuk menganalisis data nonnormal yang melibatkan efek acak: semua yang harus dilakukan, pada prinsipnya, adalah menentukan distribusi, fungsi tautan, dan struktur efek acak. model campuran linier (yang menggabungkan efek acak) dan model linier umum (yang menangani data tidak normal dengan menggunakan fungsi tautan dan distribusi keluarga eksponensial [mis. distribusi normal, Poisson atau binomial]). GLMM adalah alat terbaik untuk menganalisis data nonnormal yang melibatkan efek acak: semua yang harus dilakukan, pada prinsipnya, adalah menentukan distribusi, fungsi tautan, dan struktur efek acak. model campuran linier (yang menggabungkan efek acak) dan model linier umum (yang menangani data tidak normal dengan menggunakan fungsi tautan dan distribusi keluarga eksponensial [mis. distribusi normal, Poisson atau binomial]). GLMMs adalah alat terbaik untuk menganalisis data nonnormal yang melibatkan efek acak: yang harus dilakukan, pada prinsipnya, adalah menentukan distribusi, fungsi tautan, dan struktur efek acak.

Halaman 129, Kotak 1:

The residual mengindikasikan overdispersion , jadi kami dipasang kembali data dengan model kuasi-Poisson. Meskipun parameter skala estimasi besar (10.8), grafik eksplorasi tidak menemukan bukti outlier pada tingkat individu, genotipe atau populasi. Kami menggunakan quasi-AIC (QAIC), menggunakan satu derajat kebebasan untuk efek acak [49], untuk randomeffect dan kemudian untuk pemilihan model efek tetap.

Halaman 133, Kotak 4:

Di sini kami menguraikan kerangka umum untuk membangun model penuh (paling kompleks), langkah pertama dalam analisis GLMM. Setelah proses ini, seseorang kemudian dapat mengevaluasi parameter dan membandingkan submodels seperti yang dijelaskan dalam teks utama dan pada Gambar 1.

  1. Tentukan efek tetap (perawatan atau kovariat) dan acak (blok eksperimental, spasial atau temporal, individu, dll.). Hanya sertakan interaksi penting. Batasi model a priori hingga tingkat kompleksitas yang layak, berdasarkan aturan praktis (> 5-6 tingkat efek-acak per efek acak dan> 10-20 sampel per tingkat perlakuan atau unit eksperimental) dan pengetahuan tentang ukuran sampel yang memadai yang diperoleh dari penelitian sebelumnya [64,65].

  2. Pilih distribusi kesalahan dan fungsi tautan (mis. Distribusi Poisson dan tautan log untuk data jumlah, distribusi binomial, dan tautan logit untuk data proporsi).

  3. Pengecekan grafis : apakah varian data (ditransformasikan oleh fungsi tautan) homogen di seluruh kategori? Apakah tanggapan terhadap data yang ditransformasikan linier sehubungan dengan prediktor berkelanjutan? Apakah ada individu atau kelompok yang outlier? Apakah distribusi dalam kelompok cocok dengan distribusi yang diasumsikan?

  4. Cocok GLM efek tetap baik untuk set data lengkap (dikumpulkan) dan dalam setiap tingkat faktor acak [28,50]. Parameter yang diperkirakan harus kira-kira terdistribusi secara normal antar kelompok (parameter tingkat kelompok dapat memiliki ketidakpastian besar, terutama untuk kelompok dengan ukuran sampel kecil). Sesuaikan model seperlunya (mis. Ubah fungsi tautan atau tambahkan kovariat).

  5. Paskan GLMM lengkap. Memori komputer tidak mencukupi atau terlalu lambat: kurangi kompleksitas model. Jika estimasi berhasil pada subset data, coba algoritma estimasi yang lebih efisien (mis. PQL jika perlu). Gagal berkumpul (peringatan atau kesalahan): kurangi kompleksitas model atau ubah pengaturan optimisasi (pastikan jawaban yang dihasilkan masuk akal). Coba algoritma estimasi lain. Komponen tanpa variasi atau singularitas (peringatan atau kesalahan): periksa apakah model didefinisikan dengan benar dan dapat diidentifikasi (mis. Semua komponen secara teoritis dapat diperkirakan). Kurangi kompleksitas model. Menambahkan informasi ke model (kovariat tambahan, atau pengelompokan baru untuk efek acak) dapat mengatasi masalah, karena akan memusatkan kovariat berkesinambungan dengan mengurangi rata-rata mereka [50]. Jika perlu, hilangkan efek acak dari model penuh, menjatuhkan (i) persyaratan yang kurang menarik secara biologis, (ii) ketentuan dengan varians yang diperkirakan sangat kecil dan / atau ketidakpastian yang besar, atau (iii) istilah interaksi. (Kesalahan konvergensi atau nol varians dapat menunjukkan data tidak cukup.)

  6. χ2

Plot residual harus digunakan untuk menilai penyebaran berlebihan dan varian yang diubah harus homogen di seluruh kategori. Tidak ada dalam artikel yang disebutkan bahwa residu seharusnya didistribusikan secara normal.

Saya pikir alasan mengapa ada pernyataan yang berbeda mencerminkan bahwa GLMM (halaman 127-128) ...

... secara mengejutkan sulit untuk digunakan bahkan untuk ahli statistik. Meskipun beberapa paket perangkat lunak dapat menangani GLMM (Tabel 1), beberapa ahli ekologi dan ahli biologi evolusi menyadari berbagai pilihan atau kemungkinan perangkap. Dalam meninjau makalah dalam ekologi dan evolusi sejak 2005 ditemukan oleh Google Cendekia, 311 dari 537 analisis GLMM (58%) menggunakan alat-alat ini secara tidak tepat dalam beberapa cara (lihat materi pelengkap online).

Dan berikut adalah beberapa contoh yang berfungsi penuh menggunakan GLMM termasuk diagnostik.

Saya menyadari bahwa jawaban ini lebih seperti komentar dan harus diperlakukan seperti itu. Tetapi bagian komentar tidak memungkinkan saya untuk menambahkan komentar yang panjang. Juga karena saya percaya makalah ini bermanfaat untuk diskusi ini (tapi sayangnya di balik tembok pembayaran), saya pikir akan bermanfaat untuk mengutip bagian-bagian penting di sini.

Makalah yang dikutip:

[15] - GP Quinn, MJ Keough (2002): Desain Eksperimental dan Analisis Data untuk Ahli Biologi, Cambridge University Press.

[16] - MJ Crawley (2002): Komputasi Statistik: Pengantar Analisis Data Menggunakan S-PLUS, John Wiley & Sons.

[28] - JC Pinheiro, DM Bates (2000): Model Efek Campuran dalam S dan S-PLUS, Springer.

[49] - F. Vaida, S. Blanchard (2005): Informasi Akaike bersyarat untuk model efek campuran. Biometrika, 92, hlm. 351–370.

[50] - A. Gelman, J. Hill (2006): Analisis Data Menggunakan Regresi dan Model Multilevel / Hirarki, Cambridge University Press.

[64] - NJ Gotelli, AM Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.

[65] - FJ Harrell (2001): Strategi Pemodelan Regresi, Springer.

[66] - JK Lindsey (1997): Menerapkan Generalized Linear Models, Springer.

[67] - W. Venables, BD Ripley (2002): Statistik Terapan Modern dengan S, Springer.

Stefan
sumber
Terima kasih, itu memang membantu, saya tahu tentang contoh-contoh pengkodean dari Bolker, tetapi bukan makalah yang sebenarnya. Yang saya masih bertanya-tanya adalah bagaimana pemeriksaan grafis berlaku untuk data skala sangat besar dengan ribuan kelompok. Beberapa makalah (seperti yang itu) yang mencoba memberikan beberapa panduan tentang cara memeriksa model Anda dengan baik, semuanya hanya berlaku untuk data skala sangat kecil. Kemudian, lebih mudah untuk memilih misalnya, kelompok dan memvisualisasikan sesuatu. Saya benar-benar berpikir bahwa kontribusi ilmiah yang baik dapat dibuat jika seseorang melewati contoh yang lebih kompleks di masa depan.
fsociety
1
Saya senang ini bermanfaat! Saya pikir contoh-contoh yang disajikan sudah cukup kompleks (setidaknya bagi saya). Saya kira masalah yang lebih besar adalah bahwa kumpulan data yang lebih besar dan model yang lebih kompleks dapat menjadi tidak layak secara komputasi seperti yang disebutkan dalam teks: "[...] untuk menemukan perkiraan ML, seseorang harus mengintegrasikan kemungkinan atas semua nilai yang mungkin dari efek acak. Untuk GLMMs perhitungan ini paling lambat, dan paling buruk (misalnya untuk sejumlah besar efek acak) tidak layak secara komputasi. " Apa yang saya temukan luar biasa, dan apa yang harus diingat, adalah bahwa kita menggunakan alat yang sedang dalam penelitian aktif!
Stefan
9

Ini adalah pertanyaan lama, tetapi saya pikir akan bermanfaat untuk menambahkan bahwa opsi 4 yang disarankan oleh OP sekarang tersedia dalam paket DHARMa R (tersedia dari CRAN, lihat di sini ).

Paket membuat pemeriksaan residu visual yang disarankan oleh jawaban yang diterima jauh lebih dapat diandalkan / mudah.

Dari deskripsi paket:

Paket DHARMa menggunakan pendekatan berbasis simulasi untuk membuat sisa skala yang dapat ditafsirkan dengan mudah dari model campuran linier umum yang sesuai. Yang didukung saat ini adalah semua kelas 'merMod' dari 'lme4' ('lmerMod', 'glmerMod'), 'glm' (termasuk 'negbin' dari 'MASS', tetapi tidak termasuk kuasi-distribusi) dan kelas model 'lm'. Atau, simulasi yang dibuat secara eksternal, misalnya simulasi prediksi posterior dari perangkat lunak Bayesian seperti 'JAGS', 'STAN', atau 'BUGS' dapat diproses juga. Residu yang dihasilkan distandarisasi ke nilai antara 0 dan 1 dan dapat diinterpretasikan secara intuitif sebagai residu dari regresi linier. Paket ini juga menyediakan sejumlah fungsi plot dan uji untuk masalah kesalahan spesifikasi model,

Florian Hartig
sumber
1
Tambahan yang sangat bagus untuk utas ini!
Stefan