Menafsirkan varians efek acak dalam glmer

13

Saya merevisi makalah tentang penyerbukan, di mana data didistribusikan secara biner (buah matang atau tidak). Jadi saya menggunakan glmersatu efek acak (tanaman individu) dan satu efek tetap (pengobatan). Peninjau ingin tahu apakah tanaman berpengaruh pada set buah - tetapi saya mengalami kesulitan menafsirkan glmerhasilnya.

Saya sudah membaca di web dan sepertinya ada masalah dengan langsung membandingkan glmdan glmermodel, jadi saya tidak melakukan itu. Saya menemukan cara paling mudah untuk menjawab pertanyaan adalah dengan membandingkan varians efek acak (1,449, di bawah) dengan total varians, atau varians yang dijelaskan oleh pengobatan. Tetapi bagaimana saya menghitung varian-varian lain ini? Mereka sepertinya tidak dimasukkan dalam output di bawah ini. Saya membaca sesuatu tentang varian residual yang tidak dimasukkan untuk binomial glmer- bagaimana cara menafsirkan kepentingan relatif dari efek acak?

> summary(exclusionM_stem)
Generalized linear mixed model fit by maximum likelihood (Laplace
  Approximation) [glmerMod]
 Family: binomial  ( logit )
Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID)

     AIC      BIC   logLik deviance df.resid 
   125.9    131.5    -59.0    117.9       26 

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-2.0793 -0.8021 -0.0603  0.6544  1.9216 

Random effects:
 Groups  Name        Variance Std.Dev.
 PlantID (Intercept) 1.449    1.204   
Number of obs: 30, groups:  PlantID, 10

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept)  -0.5480     0.4623  -1.185   0.2359   
TreatmentD   -1.1838     0.3811  -3.106   0.0019 **
TreatmentN   -0.3555     0.3313  -1.073   0.2832   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
           (Intr) TrtmnD
TreatmentD -0.338       
TreatmentN -0.399  0.509
jwb4
sumber

Jawaban:

12

Sementara mendapatkan analog "varians proporsi yang dijelaskan oleh masing-masing efek" pada prinsipnya mungkin untuk GLMM, ada beberapa faktor yang menyulitkan (level model mana yang Anda pertimbangkan "varians total", dan bagaimana Anda menghitung variasi sampel karena distribusi pengambilan sampel [Binomial dalam kasus ini] tingkat terendah)? Nakagawa dan Schielzeth (doi: 10.1111 / j.2041-210x.2012.00261.x) menyajikan pendekatan umum untuk menghitung R ^ 2 (proporsi dari total varian yang dijelaskan) untuk (G) LMM yang telah menjadi sangat populer di bidang ekologi; Xu et al 2003mengambil pendekatan serupa. Pada prinsipnya pendekatan ini mungkin dapat diperluas untuk mempertimbangkan proporsi varian dijelaskan oleh istilah yang berbeda [tetapi perhatikan bahwa 'proporsi varian' dari semua istilah dalam model yang dipertimbangkan dengan cara ini mungkin tidak akan menambahkan hingga 100% - itu bisa lebih atau kurang].

Namun, jika pengulas Anda tidak menutup pada detail statistik dan akan puas dengan penjelasan yang lebih heuristik tentang "kepentingan", Anda dapat menunjukkan bahwa perkiraan standar deviasi antar-pabrik adalah 1,20, sangat dekat dengan besarnya yang terbesar. efek pengobatan (-1.18); ini berarti bahwa tanaman bervariasi sedikit, relatif terhadap besarnya efek pengobatan (misalnya, kisaran 95% dari efek tanaman adalah sekitar , dari ke ).- 1,96 σ + 1,96 σ4σ1.96σ+1.96σ

Secara visual:

masukkan deskripsi gambar di sini

Ben Bolker
sumber
+1, saya tertarik dengan penyebutan untuk model non-linear Anda. Apa pendapat Anda tentang diskusi di sini: Ukuran pseudo-R2 manakah yang harus dilaporkan untuk regresi logistik (Cox & Snell atau Nagelkerke)? R2
gung - Reinstate Monica
1
Saya hanya mengatakan bahwa saya tidak berpikir itu adalah pertanyaan yang gila atau selalu keliru. Namun baik struktur hierarkis dan model seperti GLM membuka kaleng cacing yang membuatnya lebih sulit untuk memilih jawaban. Saya biasanya tidak repot, tetapi saya bisa melihat mengapa orang ingin mencoba menemukan angka yang mengukur baik kecocokan, atau kepentingan relatif istilah dalam model, dengan cara yang masuk akal.
Ben Bolker
Itu masuk akal. Btw, apa pendapat Anda tentang saran saya bahwa dengan 10 tanaman, 3 perawatan & N = 30, OP dapat menyesuaikan model dengan menggunakan keduanya sebagai efek tetap? Saya tidak selalu berpikir ini akan menjadi model akhir yang tepat, tentu saja, tetapi hal itu menurut saya berpotensi sebagai cara yang diizinkan untuk menguji apakah ada variasi di antara tanaman, & untuk menempatkan kedua variabel pada pijakan yang sama untuk perbandingan.
gung - Reinstate Monica
tampaknya masuk akal bagi saya.
Ben Bolker
Saya cocok dengan model dengan Treatment dan Plant sebagai efek tetap seperti yang disarankan gung, dan istilah Plant memiliki nilai p yang sangat tinggi (p = 0,3). Apakah ini tampak aneh mengingat bahwa, seperti yang Anda katakan, "perkiraan standar deviasi antara pabrik adalah 1,20, sangat dekat dengan besarnya efek perawatan terbesar (-1,18)"? Mengapa itu muncul sebagai tidak signifikan dalam ANOVA dengan 2 efek tetap?
jwb4
3

Yang Anda inginkan adalah menguji apakah variansnya PlantIDadalah . Namun, ini adalah tes yang aneh untuk dijalankan, karena nilai nol berada pada batas ruang yang diizinkan. Tes semacam itu masih berjalan, tetapi banyak orang sangat tidak nyaman dengan tes itu. 0

Dalam kasus Anda, Anda memiliki beberapa ukuran per tanaman, jadi satu pendekatan cepat dan kotor adalah menjalankan model dengan PlantIDefek tetap, dan menguji efek itu.

gung - Pasang kembali Monica
sumber
1

Jawaban sederhana untuk pengulas Anda adalah, "Ya." Jika dia meminta Anda untuk menguji apakah varians dari efek acak berbeda secara signifikan dari 0, Anda memiliki beberapa opsi. Perhatikan bahwa banyak orang pintar tidak nyaman dengan pengujian jika varian efek acak berbeda dari 0.

Paling sederhana adalah tes rasio kemungkinan, meskipun tidak direkomendasikan oleh sebagian besar. Mereka sangat konservatif ketika menguji pada batas (yaitu Anda menguji terhadap varian 0 yang serendah mungkin). Ada aturan praktis di luar sana bahwa nilai p sekitar dua kali dari apa sebenarnya.

Metode yang direkomendasikan kebanyakan tempat adalah bootstrap parametrik. Anda dapat menggunakan bootMerdari lme4paket. Pastikan bahwa Anda mengatur parameter REML fungsi lmer Anda ke FALSE, jika varians Anda akan lebih besar dari 0 100% dari waktu (atau dekat dengan itu ... sebenarnya itu mungkin akan lebih besar dari 0 hampir 100% dari waktu pula).

Beberapa kiat dan sumber lebih lanjut:

http://glmm.wikidot.com/faq (temukan Bagaimana saya bisa menguji apakah efek acak signifikan? tajuk)

lmer () pengujian bootstrap parametrik untuk efek yang diperbaiki

http://www.r-bloggers.com/using-bootmer-to-do-model-comparison-in-r/

le_andrew
sumber
Terima kasih atas panduan jelas (dan cepat!) Ini untuk perbandingan model. Tetapi bagaimana saya akan menafsirkan "besarnya" efek dari variabel acak? yaitu, bagaimana saya membandingkan varians yang dijelaskan oleh variabel acak saya dengan varians yang dijelaskan oleh variabel tetap (pengobatan)? Saya kira saya tidak melihat bagaimana ini diperoleh dari hasil tes LRT bootstrap.
jwb4
0

Dalam Multiple-Sample Cochran's Q Test , mereka menggunakan anova untuk membandingkan hasil dari dua model (satu tanpa efek acak dan satu dengan efek acak).

Universitas Jairo Rocha dari Kepulauan Balearic

Jairo Rocha
sumber