Desain model efek campuran dengan variabel sampel

11

Saya mencoba menentukan rumus untuk model efek campuran linier (dengan lme4) untuk desain eksperimental saya, tetapi saya tidak yakin saya melakukannya dengan benar.

Desain: pada dasarnya saya mengukur parameter respons pada tanaman. Saya memiliki 4 tingkat perawatan, dan 2 tingkat irigasi. Tanaman dikelompokkan dalam 16 plot, dalam setiap plot saya sampel 4 sub-plot. Di setiap sub-plot saya mengambil antara 15 dan 30 pengamatan (tergantung pada jumlah tanaman yang ditemukan). Artinya, ada total 1500 baris.

masukkan deskripsi gambar di sini

Awalnya level subplot ada di sini hanya untuk keperluan pengambilan sampel, tetapi saya pikir saya ingin memperhitungkannya dalam model (sebagai variabel 64-level) karena saya melihat ada banyak variabilitas dari satu sub-plot ke sub-plot lainnya. , bahkan di dalam plot yang sama (lebih besar dari variabilitas antara seluruh plot).

Ide pertama saya adalah menulis:

library(lme4)
fit <- lmer(y ~ treatment*irrigation + (1|subplot/plot), data=mydata)

atau

fit <- lmer(y ~ treatment*irrigation + (1|subplot) + (1|plot), data=mydata)

Apakah itu benar? Saya tidak yakin apakah saya harus menyimpan kedua level plot / subplot dalam formula saya. Tidak ada efek tetap yang signifikan tetapi efek acak sangat signifikan.

agenis
sumber

Jawaban:

9

Model Anda harus ditulis sebagai

fit <- lmer(y ~ treatment*irrigation + (1|plot/subplot), data=mydata)

sebagai subplot bersarang dalam situs. meskipun (1|plot)+ (1|subplot)akan berfungsi jika subplot dilabeli secara unik (yaitu 1A, 1B, 1C, ..., 2A, 2B, 2C daripada A, B, C ..., A, B, C). Bab buku saya dari Fox et al. Statistik Ekologi menggambarkan contoh persarangan:

Di sisi lain, dalam contoh centang setiap anak ayam muncul hanya dalam satu induk, dan setiap induk muncul hanya dalam satu situs: spesifikasi model adalah (1 | SITE/BROOD/INDEX), dibaca sebagai “anak ayam (INDEX) bersarang di dalam induk yang bersarang di dalam lokasi,” atau setara (1 | SITE) + (1 | SITE:BROOD) + (1 | SITE:BROOD:INDEX). Jika induk dan anak ayam diberi label unik, sehingga perangkat lunak dapat mendeteksi sarang, (1 | SITE) + (1 | BROOD) + (1 | INDEX)juga akan berfungsi (jangan gunakan (1 | SITE) + (1 | SITE/BROOD) + (1 | SITE/BROOD/INDEX); itu akan menyebabkan istilah yang berlebihan dalam model).

Pikiran lain:

  • informasi lebih lanjut tentang spesifikasi bersarang dan model di http://glmm.wikidot.com/faq
  • Apakah perawatan irigasi Anda benar-benar teratur seperti ditunjukkan dalam skema di atas, yaitu non-diselingi? Atau apakah itu hanya untuk kenyamanan presentasi grafis? Jika yang pertama, maka Anda memiliki desain eksperimental yang berpotensi bermasalah ...
  • Karena subplot bersarang di dalam lokasi, maka akan baik-baik saja secara inferensial (mengikuti Ekologi Murtaugh 2007 "Kesederhanaan dan kompleksitas dalam analisis data ekologis" ) untuk mengambil cara plot dan menganalisis data pada tingkat plot.
  • Untuk apa nilainya, saya pikir Anda bisa melangkah lebih jauh dan agregat ke tingkat plot; maka Anda dapat melewati model campuran sepenuhnya dan cukup lakukanlm(y~treatment*irrigation, data=my_aggregated_data)
Ben Bolker
sumber
terima kasih atas bantuan Anda (saya punya 12 jam untuk menunggu untuk membuka +50 :( memang saya sangat ragu mengenai penamaan subplot saya (4 atau 64 label unik). Angka itu benar: irigasi tidak "acak", itu sayangnya saya setuju (mereka mengatakan kepada saya: "terlalu ekspansif untuk melakukannya secara berbeda"!). Terima kasih atas tautannya. Satu pertanyaan lagi: saya mendapatkan plot residu yang tidak terlihat bagus: berbentuk kerucut (seperti ini: "<"), kesalahan tampaknya sebanding dengan nilai Y. adakah cara untuk memperbaiki ini dalam model jenis ini?
agenis
1
Solusi yang paling jelas (dan salah satu yang sering memperbaiki masalah lain) adalah mentransformasikan respons, paling sering mengubah-log.
Ben Bolker