Ini lebih merupakan pertanyaan konseptual, tetapi karena saya menggunakan R
saya akan merujuk ke paket di R
. Jika tujuannya adalah agar sesuai dengan model linier untuk keperluan prediksi, dan kemudian membuat prediksi di mana efek acak mungkin tidak tersedia, apakah ada manfaat menggunakan model efek campuran, atau haruskah model efek tetap digunakan sebagai gantinya?
Sebagai contoh, jika saya memiliki data tentang berat vs tinggi dengan beberapa informasi lain, dan membuat model dengan menggunakan lme4
, di mana subjek adalah faktor dengan level ( ):
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Lalu saya ingin dapat memprediksi berat dari model menggunakan tinggi dan umur data baru. Jelas varians menurut subjek dalam data asli ditangkap dalam model, tetapi apakah mungkin untuk menggunakan informasi ini dalam prediksi? Katakanlah saya memiliki beberapa data tinggi dan usia baru, dan ingin memprediksi berat, saya dapat melakukannya sebagai berikut:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Ini akan digunakan predict.merMod
, dan saya bisa memasukkan kolom untuk subjek (baru) di newdf
, atau mengatur re.form =~0
. Pada contoh pertama, tidak jelas apa yang dilakukan model dengan faktor-faktor subjek 'baru', dan dalam contoh kedua, akankah variasi menurut subjek yang ditangkap dalam model diabaikan begitu saja (dirata-rata lebih) untuk prediksi?
Dalam kedua kasus itu tampak bagi saya bahwa model linear efek tetap mungkin lebih tepat. Memang, jika pemahaman saya benar, maka model efek tetap harus memprediksi nilai yang sama dengan model campuran, jika efek acak tidak digunakan dalam prediksi. Haruskah ini masalahnya? Di R
dalamnya tidak, misalnya:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
menghasilkan hasil yang berbeda untuk:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age
sumber
Jawaban:
Eksperimen pemikiran sederhana: Anda telah mengukur berat dan tinggi 5 bayi setelah lahir. Dan Anda mengukurnya dari bayi yang sama lagi setelah dua tahun. Sementara itu Anda mengukur berat dan tinggi bayi perempuan Anda hampir setiap minggu menghasilkan 100 pasangan nilai untuknya. Jika Anda menggunakan model efek campuran, tidak ada masalah. Jika Anda menggunakan model efek tetap, Anda memberikan bobot yang tidak semestinya pada pengukuran dari anak Anda, ke titik di mana Anda akan mendapatkan model yang hampir sama sesuai jika Anda hanya menggunakan data darinya. Jadi, tidak hanya penting bagi kesimpulan untuk memodelkan ukuran yang berulang atau struktur ketidakpastian dengan benar, tetapi juga untuk prediksi. Secara umum, Anda tidak mendapatkan prediksi yang sama dari model efek campuran dan dari model efek tetap (dengan asumsi yang dilanggar).
Anda tidak dapat memprediksi subjek yang bukan bagian dari data asli (pelatihan). Sekali lagi eksperimen pemikiran: subjek baru mengalami obesitas. Bagaimana model bisa tahu bahwa itu berada di ujung atas dari distribusi efek acak?
Jika saya mengerti Anda dengan benar maka ya. Model ini memberi Anda perkiraan nilai yang diharapkan untuk populasi (perhatikan bahwa perkiraan ini masih tergantung pada subjek asli).
sumber
You can't predict for subjects which were not part of the original (training) data
; bukankah menetapkanre.form=~0
dan memprediksi dari nilai yang diharapkan populasi memungkinkan saya melakukan hal itu? Memang, model ini tidak menggunakan informasi subjek-spesifik apa pun dalam prediksi, tetapi apakah adil untuk mengatakan bahwa estimasi dari model efek campuran masih akan lebih akurat dibandingkan dengan model efek tetap yang setara di mana variasi subjek-spesifik berada diabaikan?re.form=~0
memberi Anda prediksi tingkat populasi, yang merupakan yang terbaik yang dapat Anda lakukan untuk mata pelajaran baru.glmmLasso
paket dalam R. Penulis paket, Andreas Groll, menyatakan prosedur glmmLasso hanya menggunakan efek tetap untuk membuat prediksi untuk subjek baru dan memperbaiki + efek acak untuk subjek yang ada di periode waktu berikutnya.