Katakanlah kita punya model
mod <- Y ~ X*Condition + (X*Condition|subject)
# Y = logit variable
# X = continuous variable
# Condition = values A and B, dummy coded; the design is repeated
# so all participants go through both Conditions
# subject = random effects for different subjects
summary(model)
Random effects:
Groups Name Variance Std.Dev. Corr
subject (Intercept) 0.85052 0.9222
X 0.08427 0.2903 -1.00
ConditionB 0.54367 0.7373 -0.37 0.37
X:ConditionB 0.14812 0.3849 0.26 -0.26 -0.56
Number of obs: 39401, groups: subject, 219
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.49686 0.06909 36.14 < 2e-16 ***
X -1.03854 0.03812 -27.24 < 2e-16 ***
ConditionB -0.19707 0.06382 -3.09 0.00202 **
X:ConditionB 0.22809 0.05356 4.26 2.06e-05 ***
Di sini kita amati kesesuaian singular, karena korelasi antara intersep dan x efek acak adalah -1. Sekarang, menurut tautan yang bermanfaat ini satu cara untuk menangani model ini adalah dengan menghilangkan efek acak tingkat tinggi (misalnya, X: ConditionB) dan melihat apakah itu membuat perbedaan ketika menguji singularitas. Yang lainnya adalah menggunakan pendekatan Bayesian, misalnya blme
paket untuk menghindari singularitas.
Apa metode yang dipilih dan mengapa?
Saya menanyakan hal ini karena menggunakan yang pertama atau yang kedua menghasilkan hasil yang berbeda - dalam kasus pertama, saya akan menghapus X: efek acak ConditionB dan tidak akan dapat memperkirakan korelasi antara X dan X: efek acak ConditionB. Di sisi lain, menggunakan blme
memungkinkan saya untuk tetap X: ConditionB dan untuk memperkirakan korelasi yang diberikan. Saya tidak melihat alasan mengapa saya harus menggunakan estimasi non-bayesian dan menghapus efek acak ketika cocok singular terjadi ketika saya bisa memperkirakan semuanya dengan pendekatan Bayesian.
Dapatkah seseorang menjelaskan kepada saya manfaat dan masalah menggunakan salah satu metode untuk menangani kesesuaian tunggal?
Terima kasih.
sumber
Jawaban:
Ketika Anda mendapatkan kecocokan singular, ini sering menunjukkan bahwa model terlalu pas - yaitu, struktur efek acak terlalu kompleks untuk didukung oleh data, yang secara alami mengarah pada saran untuk menghapus bagian paling kompleks dari efek acak struktur (biasanya lereng acak). Manfaat dari pendekatan ini adalah mengarah pada model yang lebih pelit dan tidak terlalu pas.
Namun, sebelum melakukan sesuatu, apakah Anda memiliki alasan yang kuat untuk menginginkan
X
,Condition
dan interaksinya, semuanya berbeda menurut subjeknya? Apakah teori tentang bagaimana data dihasilkan menyarankan ini?Jika Anda ingin mencocokkan model dengan struktur efek acak maksimal, dan
lme4
mendapatkan kesesuaian singular, maka pemasangan model yang sama dalam kerangka Bayesian mungkin akan memberi tahu Anda mengapalme4
ada masalah, dengan memeriksa plot jejak dan seberapa baik berbagai estimasi parameter konvergen . Keuntungan dalam mengambil pendekatan Bayesian adalah bahwa dengan melakukan itu Anda dapat mengungkap masalah dengan model asli yaitu. alasan mengapa struktur efek acak maksimum tidak didukung oleh data) atau mungkin mengungkap mengapalme4
tidak dapat sesuai dengan model. Saya telah menemukan situasi di mana model Bayesian tidak bertemu dengan baik, kecuali digunakan informasi informatif - yang mungkin atau mungkin tidak OK.Singkatnya, kedua pendekatan itu pantas.
Namun, saya akan selalu mulai dari tempat di mana model awal adalah pelit dan diinformasikan oleh ahli pengetahuan domain untuk menentukan struktur efek acak yang paling tepat. Menentukan pengelompokan variabel relatif mudah, tetapi lereng acak biasanya tidak memiliki untuk dimasukkan. Hanya sertakan mereka jika mereka masuk akal secara teoritis DAN mereka didukung oleh data.
Sunting: Disebutkan dalam komentar bahwa ada alasan teoretis yang kuat agar sesuai dengan struktur efek acak maksimal. Jadi, cara yang relatif mudah untuk melanjutkan dengan model Bayesian yang setara adalah dengan menukar panggilan
glmer
denganstan_glmer
darirstanarm
paket - itu dirancang untuk plug and play. Ini memiliki prior default, sehingga Anda dapat dengan cepat mendapatkan model yang pas. Paket ini juga memiliki banyak alat untuk menilai konvergensi. Jika Anda menemukan bahwa semua parameter memiliki konvergensi ke nilai yang masuk akal, maka Anda semua baik-baik saja. Namun bisa ada sejumlah masalah - misalnya varian yang diperkirakan pada atau di bawah nol, atau perkiraan yang terus melayang. Situs mc-stan.org memiliki banyak informasi dan forum pengguna.sumber
Ini adalah utas yang sangat menarik, dengan jawaban dan komentar yang menarik! Karena ini belum diangkat, saya ingin menunjukkan bahwa kami memiliki sangat sedikit data untuk setiap mata pelajaran (seperti yang saya mengerti). Memang, setiap subjek hanya memiliki dua nilai untuk masing-masing variabel respon Y, variabel kategori Kondisi dan variabel kontinu X. Secara khusus, kita tahu bahwa kedua nilai Kondisi adalah A dan B.
Jika kita mengejar pemodelan regresi dua tahap daripada pemodelan efek campuran, kita bahkan tidak bisa memasukkan model regresi linier ke data dari subjek tertentu, seperti yang diilustrasikan dalam contoh mainan di bawah ini untuk salah satu subjek:
Output dari model subjek-spesifik ini adalah:
Perhatikan bahwa model tersebut sesuai dengan singularitas, karena kami mencoba memperkirakan 4 koefisien regresi ditambah deviasi standar kesalahan menggunakan hanya 2 pengamatan.
Singularitas akan bertahan bahkan jika kita mengamati subjek ini dua kali - bukan satu kali - dalam setiap kondisi. Namun, jika kami mengamati subjek 3 kali dalam setiap kondisi, kami akan menghilangkan singularitas:
Berikut adalah output R yang sesuai untuk contoh kedua ini, dari mana singularitas telah menghilang:
Tentu saja, model efek campuran tidak cocok dengan model regresi linier yang tidak terkait dan terpisah untuk setiap subjek - model ini cocok dengan model "terkait" yang intersep dan / atau lerengnya menyimpang secara acak tentang intersep dan / atau lereng yang khas, sehingga penyimpangan acak dari mencegat tipikal dan / atau kemiringan tipikal mengikuti distribusi normal dengan rata-rata nol dan beberapa standar deviasi yang tidak diketahui.
Meski begitu, intuisi saya menunjukkan bahwa model efek campuran sedang berjuang dengan sejumlah kecil pengamatan - hanya 2 - tersedia untuk setiap subjek. Semakin banyak model dimuat dengan kemiringan acak, semakin besar kemungkinan ia berjuang. Saya menduga bahwa, jika masing-masing subjek berkontribusi 6 pengamatan bukannya 2 (yaitu, 3 per kondisi), maka tidak akan lagi kesulitan untuk mengakomodasi semua lereng acak.
Sepertinya bagi saya bahwa ini bisa menjadi (?) Kasus di mana desain studi saat ini tidak mendukung ambisi pemodelan yang kompleks - untuk mendukung ambisi tersebut, pengamatan lebih lanjut akan diperlukan di bawah setiap kondisi untuk setiap subjek (atau setidaknya untuk beberapa subyek?). Ini hanya intuisi saya sehingga saya berharap orang lain dapat menambahkan wawasan mereka ke pengamatan saya di atas. Terima kasih sebelumnya!
sumber