Cheat sheet L sedikit

160

Ada banyak diskusi yang terjadi di forum ini tentang cara yang tepat untuk menentukan berbagai model hirarkis yang digunakan lmer.

Saya pikir akan bagus jika memiliki semua informasi di satu tempat. Beberapa pertanyaan untuk memulai:

  1. Bagaimana cara menentukan beberapa level, di mana satu kelompok bersarang di dalam yang lain: apakah itu (1|group1:group2)atau (1+group1|group2)?
  2. Apa perbedaan antara (~1 + ....)dan (1 | ...)dan (0 | ...)sebagainya?
  3. Bagaimana cara menentukan interaksi tingkat grup?
amuba
sumber
11
The pengguna dan tiga sketsa untuk lme4paket dapat ditemukan di CRAN
Henry
4
Ada, di samping materi CRAN, slide ceramah ditambah draft bab dari buku yang ditulis Doug pada (G) LMM dan R dengan lme4 tersedia dari r-forge
Gavin Simpson
Tautan langsung ke versi arXiv dari kertas JSS oleh Bates et al .: Fitting Linear Mixed-Effects Models menggunakan lme4 (khususnya Bagian 2.2 "Memahami formula model campuran"). Lihat juga bagian yang relevan dari FAQ Ben Bolker.
amoeba
5
Boleh dibilang, bahasa yang digunakan oleh lmeradalah kepentingan statistik umum dan dengan demikian bukan semata-mata masalah pemrograman. Karena itu saya memberikan suara untuk menjaga utas ini terbuka.
Whuber
2
@whuber +1 Sepenuhnya setuju.
amoeba

Jawaban:

180

Apa perbedaan antara (~ 1 + ....) dan (1 | ...) dan (0 | ...) dll.?

Katakanlah Anda memiliki variabel V1 yang diprediksi oleh variabel kategori V2, yang diperlakukan sebagai efek acak, dan variabel kontinu V3, yang diperlakukan sebagai efek tetap linier. Menggunakan sintaks lmer, model paling sederhana (M1) adalah:

V1 ~ (1|V2) + V3

Model ini akan memperkirakan:

P1: Pencegatan global

P2: Penyadapan efek acak untuk V2 (yaitu untuk setiap tingkat V2, penyimpangan penyadapan tingkat itu dari penyadapan global)

P3: Perkiraan global tunggal untuk efek (kemiringan) V3

Model paling kompleks berikutnya (M2) adalah:

V1 ~ (1|V2) + V3 + (0+V3|V2)

Model ini memperkirakan semua parameter dari M1, tetapi juga akan memperkirakan:

P4: Efek V3 dalam setiap level V2 (lebih khusus lagi, sejauh mana efek V3 dalam level tertentu menyimpang dari efek global V3), sementara menegakkan korelasi nol antara penyimpangan intersep dan penyimpangan efek V3 lintas level. dari V2 .

Pembatasan yang terakhir ini santai dalam model paling kompleks akhir (M3):

V1 ~ (1+V3|V2) + V3

Di mana semua parameter dari M2 diestimasi sementara memungkinkan korelasi antara penyimpangan intersep dan penyimpangan efek V3 dalam level V2. Jadi, dalam M3, parameter tambahan diperkirakan:

P5: Korelasi antara deviasi intersep dan deviasi V3 lintas level V2

Biasanya pasangan model seperti M2 dan M3 dihitung kemudian dibandingkan untuk mengevaluasi bukti korelasi antara efek tetap (termasuk intersep global).

Sekarang pertimbangkan untuk menambahkan prediktor efek tetap lain, V4. Model:

V1 ~ (1+V3*V4|V2) + V3*V4

akan memperkirakan:

P1: Pencegatan global

P2: Perkiraan global tunggal untuk efek V3

P3: Perkiraan global tunggal untuk efek V4

P4: Perkiraan global tunggal untuk interaksi antara V3 dan V4

P5: Penyimpangan intersep dari P1 di setiap level V2

P6: Penyimpangan efek V3 dari P2 di setiap level V2

P7: Penyimpangan efek V4 dari P3 di setiap level V2

P8: Penyimpangan interaksi V3-by-V4 dari P4 di setiap level V2

P9 Korelasi antara P5 dan P6 lintas level V2

P10 Korelasi antara P5 dan P7 lintas level V2

P11 Korelasi antara P5 dan P8 lintas level V2

P12 Korelasi antara P6 dan P7 lintas level V2

P13 Korelasi antara P6 dan P8 lintas level V2

P14 Korelasi antara P7 dan P8 lintas level V2

Fiuh , itu banyak parameter! Dan saya bahkan tidak repot-repot mendaftar parameter varians yang diperkirakan oleh model. Terlebih lagi, jika Anda memiliki variabel kategori dengan lebih dari 2 level yang ingin Anda modelkan sebagai efek tetap, alih-alih efek tunggal untuk variabel itu, Anda akan selalu memperkirakan efek k-1 (di mana k adalah jumlah level) , sehingga meledak jumlah parameter yang akan diperkirakan oleh model lebih jauh.

Mike Lawrence
sumber
1
@ Mike Lawrence Terima kasih atas jawabannya! bagaimana perkiraan model 3 level itu? di mana satu faktor pengelompokan bersarang di dalam yang lain?
DBR, saya pikir Anda tidak tahu level apa itu. Anda telah menanyakan hal ini selamanya. Buat pertanyaan yang benar-benar merinci desain eksperimen Anda dan menunjukkan interpretasi Anda tentang "level".
John
3
Saya pikir DBR mengacu pada level dalam hierarki. Apa yang saya jelaskan adalah model hierarki 2 tingkat, dengan pengamatan bersarang di dalam mata pelajaran, dan DBR bertanya tentang hierarki 3 tingkat, contoh yang mungkin menjadi item tes dalam siswa di sekolah di mana Anda ingin memodelkan siswa dan sekolah secara acak efek, dengan siswa bersarang di sekolah. Dalam kasus-kasus seperti itu saya berasumsi bahwa penyimpangan tingkat sekolah pertama kali dihitung kemudian penyimpangan siswa-dari-sekolah.
Mike Lawrence
2
Jawaban terbaik yang pernah saya lihat untuk mendapatkan pengaturan model. Membantu saya memberikan kerangka kerja yang mudah bagi bos saya untuk memahami apa yang saya lakukan di R dengan lmer.
bfoste01
Ysayaj=γ00+γ10Xsayaj+γ01Zj+γ11XsayajZj+kamu1jXsayaj+kamu0j+esayaj
sayasayajjlmerY~X+Z+(1|group)+(0+X|Z)group
50

Trik yang umum adalah, sebagaimana disebutkan dalam jawaban lain , adalah bahwa rumus mengikuti formulir dependent ~ independent | grouping. Secara groupingumum faktor acak, Anda dapat memasukkan faktor tetap tanpa pengelompokan apa pun dan Anda dapat memiliki faktor acak tambahan tanpa faktor tetap (model intersep-only). A +antara faktor menunjukkan tidak ada interaksi, a *menunjukkan interaksi.

Untuk faktor acak, Anda memiliki tiga varian dasar:

  1. Mencegat hanya dengan faktor acak: (1 | random.factor)
  2. Lereng hanya dengan faktor acak: (0 + fixed.factor | random.factor)
  3. Penyadapan dan lereng dengan faktor acak: (1 + fixed.factor | random.factor)

Perhatikan bahwa varian 3 memiliki kemiringan dan intersep yang dihitung dalam pengelompokan yang sama, yaitu pada saat yang sama. Jika kita ingin kemiringan dan intersep dihitung secara independen, yaitu tanpa korelasi yang diasumsikan antara keduanya, kita perlu varian keempat:

  • Intercept dan kemiringan, secara terpisah, oleh faktor acak: (1 | random.factor) + (0 + fixed.factor | random.factor). Cara alternatif untuk menulis ini adalah menggunakan notasi bilah ganda fixed.factor + (fixed.factor || random.factor).

Ada juga ringkasan yang bagus dalam tanggapan lain terhadap pertanyaan ini yang harus Anda perhatikan.

Jika Anda ingin menggali sedikit dalam matematika, Barr et al. (2013) meringkas lmersintaks dengan cukup baik dalam Tabel 1 mereka, diadaptasi di sini untuk memenuhi kendala penurunan harga yang tidak ada. Makalah itu membahas data psikolinguistik, sehingga dua efek acak adalah SubjectdanItem .

Model dan lme4sintaks rumus setara :

    • Yssaya=β0+β1Xsaya+essaya
    • T / A (Bukan model efek campuran)
    • Yssaya=β0+S0s+β1Xsaya+essaya
    • Y ∼ X+(1∣Subject)
    • Yssaya=β0+S0s+(β1+S1s)Xsaya+essaya
    • Y ∼ X+(1 + X∣Subject)
    • Yssaya=β0+S0s+saya0saya+(β1+S1s)Xsaya+essaya
    • Y ∼ X+(1 + X∣Subject)+(1∣Item)
    • Yssaya=β0+S0s+saya0saya+β1Xsaya+essaya
    • Y ∼ X+(1∣Subject)+(1∣Item)
    • S0sS1s
    • Y ∼ X+(1∣Subject)+(0 + X∣ Subject)+(1∣Item)
    • Yssaya=β0+saya0saya+(β1+S1s)Xsaya+essaya
    • Y ∼ X+(0 + X∣Subject)+(1∣Item)

Referensi:

Barr, Dale J, R. Levy, C. Scheepers dan HJ Tily (2013). Struktur efek acak untuk pengujian hipotesis konfirmasi: Tetap maksimal . Jurnal Memori dan Bahasa, 68: 255-278.

Livius
sumber
4
Bagus. Bisa lebih baik dengan informasi tentang faktor '/' bersarang dan notasi bilah ganda '||'
skan
1
Bagaimana dengan simbol:?
eastafri
1
@eastafri Ini berarti bahwa hal yang sama terjadi di mana-mana dalam R (rumus) - interaksi antara dua variabel.
Livius
S0sS1s0S0sS1s
4

The |simbol menunjukkan faktor pengelompokan dalam metode campuran.

Sesuai Pinheiro & Bates:

... Formula juga menentukan respons dan, jika tersedia, kovariat primer . Itu diberikan sebagai

response ~ primary | grouping

di mana responseekspresi untuk respons, primaryadalah ekspresi untuk kovariat primer, dan groupingmerupakan ekspresi untuk faktor pengelompokan.

Bergantung pada metode yang Anda gunakan untuk melakukan analisis metode campuran R, Anda mungkin perlu membuat groupedDataobjek untuk dapat menggunakan pengelompokan dalam analisis (lihat nlmepaket untuk detailnya, lme4sepertinya tidak memerlukan ini). Saya tidak dapat berbicara dengan cara Anda menentukan lmerpernyataan model Anda karena saya tidak tahu data Anda. Namun, memiliki banyak (1|foo)dalam garis model tidak biasa dari apa yang saya lihat. Apa yang Anda coba modelkan?

Michelle
sumber