Mengapa Anda memprediksi dari model efek campuran tanpa menyertakan efek acak untuk prediksi?

Ini lebih merupakan pertanyaan konseptual, tetapi karena saya menggunakan Rsaya akan merujuk ke paket di R. Jika tujuannya adalah agar sesuai dengan model linier untuk keperluan prediksi, dan kemudian membuat prediksi di mana efek acak mungkin tidak tersedia, apakah ada manfaat menggunakan model efek campuran, atau haruskah model efek tetap digunakan sebagai gantinya?

Sebagai contoh, jika saya memiliki data tentang berat vs tinggi dengan beberapa informasi lain, dan membuat model dengan menggunakan lme4, di mana subjek adalah faktor dengan level ( ): $n$ $n=no.samples$

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Lalu saya ingin dapat memprediksi berat dari model menggunakan tinggi dan umur data baru. Jelas varians menurut subjek dalam data asli ditangkap dalam model, tetapi apakah mungkin untuk menggunakan informasi ini dalam prediksi? Katakanlah saya memiliki beberapa data tinggi dan usia baru, dan ingin memprediksi berat, saya dapat melakukannya sebagai berikut:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

Ini akan digunakan predict.merMod, dan saya bisa memasukkan kolom untuk subjek (baru) di newdf, atau mengatur re.form =~0. Pada contoh pertama, tidak jelas apa yang dilakukan model dengan faktor-faktor subjek 'baru', dan dalam contoh kedua, akankah variasi menurut subjek yang ditangkap dalam model diabaikan begitu saja (dirata-rata lebih) untuk prediksi?

Dalam kedua kasus itu tampak bagi saya bahwa model linear efek tetap mungkin lebih tepat. Memang, jika pemahaman saya benar, maka model efek tetap harus memprediksi nilai yang sama dengan model campuran, jika efek acak tidak digunakan dalam prediksi. Haruskah ini masalahnya? Di Rdalamnya tidak, misalnya:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

menghasilkan hasil yang berbeda untuk:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age

r multiple-regression mixed-model lme4-nlme tribalsoul
sumber

Bisa jadi Anda ingin memprediksi untuk grup baru yang tidak termasuk dalam estimasi

kjetil b halvorsen

Ya, tetapi dalam hal itu mengapa repot-repot dengan model efek campuran? Apa yang memberi Anda bahwa model efek tetap tidak, jika Anda mengabaikan efek acak dalam prediksi?

tribalsoul

Yah, itu mungkin memberikan penaksir yang lebih baik, karena Anda memiliki model struktur kesalahan yang lebih baik (lebih benar)

kjetil b halvorsen

Jawaban:

Eksperimen pemikiran sederhana: Anda telah mengukur berat dan tinggi 5 bayi setelah lahir. Dan Anda mengukurnya dari bayi yang sama lagi setelah dua tahun. Sementara itu Anda mengukur berat dan tinggi bayi perempuan Anda hampir setiap minggu menghasilkan 100 pasangan nilai untuknya. Jika Anda menggunakan model efek campuran, tidak ada masalah. Jika Anda menggunakan model efek tetap, Anda memberikan bobot yang tidak semestinya pada pengukuran dari anak Anda, ke titik di mana Anda akan mendapatkan model yang hampir sama sesuai jika Anda hanya menggunakan data darinya. Jadi, tidak hanya penting bagi kesimpulan untuk memodelkan ukuran yang berulang atau struktur ketidakpastian dengan benar, tetapi juga untuk prediksi. Secara umum, Anda tidak mendapatkan prediksi yang sama dari model efek campuran dan dari model efek tetap (dengan asumsi yang dilanggar).

dan saya bisa memasukkan kolom untuk subjek (baru) dalam newdf

Anda tidak dapat memprediksi subjek yang bukan bagian dari data asli (pelatihan). Sekali lagi eksperimen pemikiran: subjek baru mengalami obesitas. Bagaimana model bisa tahu bahwa itu berada di ujung atas dari distribusi efek acak?

akankah variasi menurut subjek yang ditangkap dalam model diabaikan saja (dirata-rata lebih) untuk prediksi

Jika saya mengerti Anda dengan benar maka ya. Model ini memberi Anda perkiraan nilai yang diharapkan untuk populasi (perhatikan bahwa perkiraan ini masih tergantung pada subjek asli).

Roland
sumber

Terima kasih atas penjelasan dan contoh yang jelas, ini semua masuk akal. Namun, di mana Anda menyatakan You can't predict for subjects which were not part of the original (training) data; bukankah menetapkan re.form=~0dan memprediksi dari nilai yang diharapkan populasi memungkinkan saya melakukan hal itu? Memang, model ini tidak menggunakan informasi subjek-spesifik apa pun dalam prediksi, tetapi apakah adil untuk mengatakan bahwa estimasi dari model efek campuran masih akan lebih akurat dibandingkan dengan model efek tetap yang setara di mana variasi subjek-spesifik berada diabaikan?

tribalsoul

Model tetap tidak berlaku karena asumsi dilanggar. Anda harus menggunakan model yang menyertakan struktur ketergantungan. re.form=~0memberi Anda prediksi tingkat populasi, yang merupakan yang terbaik yang dapat Anda lakukan untuk mata pelajaran baru.

Roland

Saya memiliki pertanyaan yang sama ketika menggunakan glmmLasso paket dalam R. Penulis paket, Andreas Groll, menyatakan prosedur glmmLasso hanya menggunakan efek tetap untuk membuat prediksi untuk subjek baru dan memperbaiki + efek acak untuk subjek yang ada di periode waktu berikutnya.

RobertF