Saya agak bingung tentang kelebihan model campuran dalam hal pemodelan prediktif. Karena model prediktif biasanya dimaksudkan untuk memprediksi nilai dari pengamatan yang sebelumnya tidak diketahui maka tampak jelas bagi saya bahwa satu-satunya cara model campuran mungkin berguna adalah melalui kemampuannya untuk memberikan prediksi tingkat populasi (yaitu tanpa menambahkan efek acak). Namun, masalahnya adalah sejauh ini dalam pengalaman saya prediksi tingkat populasi berdasarkan model campuran secara signifikan lebih buruk daripada prediksi berdasarkan model regresi standar dengan efek tetap saja.
Jadi apa gunanya model campuran dalam hal masalah prediksi?
EDIT. Masalahnya adalah sebagai berikut: Saya memasang model campuran (dengan efek tetap dan acak) dan model linier standar dengan efek tetap saja. Ketika saya melakukan validasi silang, saya mendapatkan hierarki akurasi prediksi sebagai berikut: 1) model campuran ketika memprediksi menggunakan efek tetap dan acak (tetapi ini hanya berfungsi untuk pengamatan dengan tingkat variabel efek acak yang diketahui, sehingga pendekatan prediksi ini tampaknya tidak cocok untuk aplikasi prediksi nyata!); 2) model linier standar; 3) model campuran saat menggunakan prediksi tingkat populasi (sehingga dengan efek acak dibuang). Dengan demikian, satu-satunya perbedaan antara model linier standar dan model campuran adalah nilai koefisien yang agak berbeda karena metode estimasi yang berbeda (yaitu ada efek / prediktor yang sama di kedua model, tetapi mereka memiliki koefisien terkait yang berbeda).
Jadi kebingungan saya bermuara pada pertanyaan, mengapa saya akan menggunakan model campuran sebagai model prediksi, karena menggunakan model campuran untuk menghasilkan prediksi tingkat populasi tampaknya menjadi strategi yang lebih rendah dibandingkan dengan model linier standar.
Jawaban:
Itu tergantung pada sifat data, tetapi secara umum saya akan mengharapkan model campuran mengungguli model efek tetap saja.
Mari kita ambil contoh: memodelkan hubungan antara sinar matahari dan tinggi batang gandum. Kami memiliki sejumlah pengukuran tangkai individual, tetapi banyak tangkai diukur di lokasi yang sama (yang serupa di tanah, air dan hal-hal lain yang dapat mempengaruhi ketinggian). Berikut adalah beberapa model yang mungkin:
1) tinggi ~ sinar matahari
2) tinggi ~ sinar matahari + situs
3) tinggi ~ sinar matahari + (1 | situs)
Kami ingin menggunakan model ini untuk memprediksi ketinggian batang gandum baru mengingat beberapa perkiraan sinar matahari yang akan mereka alami. Saya akan mengabaikan hukuman parameter yang akan Anda bayarkan karena memiliki banyak situs dalam model efek-tetap saja, dan hanya mempertimbangkan kekuatan prediksi relatif dari model.
Pertanyaan paling relevan di sini adalah apakah titik data baru yang ingin Anda prediksi berasal dari salah satu situs yang telah Anda ukur; Anda mengatakan ini jarang terjadi di dunia nyata, tetapi itu memang terjadi.
A) Data baru berasal dari situs yang telah Anda ukur
Jika demikian, model # 2 dan # 3 akan mengungguli # 1. Keduanya menggunakan informasi yang lebih relevan (efek situs berarti) untuk membuat prediksi.
B) Data baru berasal dari situs yang tidak diukur
Saya masih berharap model # 3 mengungguli # 1 dan # 2, karena alasan berikut.
(i) Model # 3 vs # 1:
Model # 1 akan menghasilkan estimasi yang bias dalam mendukung situs yang terlalu banyak diwakili. Jika Anda memiliki jumlah poin yang sama dari setiap situs dan sampel situs yang cukup representatif, Anda harus mendapatkan hasil yang sama dari keduanya.
(ii) Model # 3 vs. # 2:
Mengapa model # 3 lebih baik daripada model # 2 dalam kasus ini? Karena efek acak memanfaatkan penyusutan - efek situs akan 'menyusut' ke nol. Dengan kata lain, Anda akan cenderung menemukan nilai ekstrem yang lebih rendah untuk efek situs saat ditetapkan sebagai efek acak daripada ketika ditetapkan sebagai efek tetap. Ini berguna dan meningkatkan kemampuan prediksi Anda ketika populasi berarti dapat dianggap diambil dari distribusi normal (lihat Paradox Stein dalam Statistik ). Jika mean populasi tidak diharapkan untuk mengikuti distribusi normal, ini mungkin menjadi masalah, tetapi biasanya asumsi yang sangat masuk akal dan metode ini kuat untuk penyimpangan kecil.
[Catatan tambahan: secara default, ketika memasang model # 2, sebagian besar perangkat lunak akan menggunakan salah satu situs sebagai referensi dan memperkirakan koefisien untuk situs lain yang mewakili penyimpangan dari referensi. Jadi mungkin tampak seolah-olah tidak ada cara untuk menghitung 'efek populasi' secara keseluruhan. Tetapi Anda dapat menghitung ini dengan rata-rata di seluruh prediksi untuk semua situs individu, atau lebih sederhana dengan mengubah pengkodean model sehingga koefisien dihitung untuk setiap situs.]
sumber
Menindaklanjuti respons mkt yang sangat baik: Dari pengalaman pribadi saya mengembangkan model prediktif di bidang asuransi kesehatan, menggabungkan efek acak ke dalam model prediktif (termasuk model pembelajaran mesin) memiliki sejumlah keunggulan.
Saya sering diminta untuk membuat model yang memprediksi hasil klaim masa depan untuk (misalnya, biaya kesehatan masa depan, lama menginap, dll) berdasarkan data klaim historis seseorang. Seringkali ada beberapa klaim per individu dengan hasil yang berkorelasi. Mengabaikan fakta bahwa banyak klaim dibagikan oleh pasien yang sama akan membuang informasi berharga dalam model prediksi.
Salah satu solusinya adalah membuat variabel indikator efek tetap untuk setiap anggota dalam dataset dan menggunakan regresi yang dikenakan sanksi untuk mengecilkan masing-masing efek tetap tingkat-anggota secara terpisah. Namun, jika ada ribuan atau jutaan anggota dalam data Anda, solusi yang lebih efisien dari sudut pandang komputasi dan prediktif mungkin untuk mewakili beberapa efek tetap tingkat-anggota sebagai istilah efek acak tunggal dengan distribusi normal.
sumber