Apakah model campuran bermanfaat sebagai model prediksi?

24

Saya agak bingung tentang kelebihan model campuran dalam hal pemodelan prediktif. Karena model prediktif biasanya dimaksudkan untuk memprediksi nilai dari pengamatan yang sebelumnya tidak diketahui maka tampak jelas bagi saya bahwa satu-satunya cara model campuran mungkin berguna adalah melalui kemampuannya untuk memberikan prediksi tingkat populasi (yaitu tanpa menambahkan efek acak). Namun, masalahnya adalah sejauh ini dalam pengalaman saya prediksi tingkat populasi berdasarkan model campuran secara signifikan lebih buruk daripada prediksi berdasarkan model regresi standar dengan efek tetap saja.

Jadi apa gunanya model campuran dalam hal masalah prediksi?

EDIT. Masalahnya adalah sebagai berikut: Saya memasang model campuran (dengan efek tetap dan acak) dan model linier standar dengan efek tetap saja. Ketika saya melakukan validasi silang, saya mendapatkan hierarki akurasi prediksi sebagai berikut: 1) model campuran ketika memprediksi menggunakan efek tetap dan acak (tetapi ini hanya berfungsi untuk pengamatan dengan tingkat variabel efek acak yang diketahui, sehingga pendekatan prediksi ini tampaknya tidak cocok untuk aplikasi prediksi nyata!); 2) model linier standar; 3) model campuran saat menggunakan prediksi tingkat populasi (sehingga dengan efek acak dibuang). Dengan demikian, satu-satunya perbedaan antara model linier standar dan model campuran adalah nilai koefisien yang agak berbeda karena metode estimasi yang berbeda (yaitu ada efek / prediktor yang sama di kedua model, tetapi mereka memiliki koefisien terkait yang berbeda).

Jadi kebingungan saya bermuara pada pertanyaan, mengapa saya akan menggunakan model campuran sebagai model prediksi, karena menggunakan model campuran untuk menghasilkan prediksi tingkat populasi tampaknya menjadi strategi yang lebih rendah dibandingkan dengan model linier standar.

sztal
sumber
Bagaimana prediksi Anda? Apakah Anda tidak menggunakan efek acak atau Anda memperbaiki efek acak Anda dengan caranya sendiri? (Yaitu, apakah Anda membuang efek acak pada waktu prediksi?)
Wayne
Sejauh yang saya mengerti efek acak dengan benar, memperbaiki efek acak dengan cara mereka sama dengan membuangnya, karena efek acak (setidaknya dalam parameterisasi yang saya gunakan) dihasilkan dari distribusi rata-rata sarana 0 dan varians sigma. Tapi bagaimanapun, karena saya tidak tahu nilai-nilai variabel efek acak untuk pengamatan baru maka saya tentu saja tidak menggunakan efek acak pada waktu prediksi, hanya efek tetap.
sztal
1
Anda mungkin ingin melihat melalui makalah ini, "Tentang Efektivitas Pengklasifikasi Regresi Logistik Berbasis Model Campuran untuk Data Longitudinal", search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/…
Jon
1
sztal: Tentu saja Anda benar. Saya berusaha merespons dengan cepat dan mengatakan sesuatu yang tidak berarti. Saya memang menemukan makalah ( gllamm.org/JRSSApredict_09.pdf ) yang membahas prediksi di Bagian 7. Saya harus mengatakan saya tidak dapat meringkasnya menjadi komentar, yang menunjukkan saya tidak benar-benar memahaminya.
Wayne
Satu pertanyaan terakhir: ketika Anda membandingkan efek-tetap-hanya dengan efek-campuran, apakah Anda menggunakan efek tetap yang sama di masing-masing, dengan hanya penambahan sesuatu seperti intersep tingkat individu? Rasanya seperti dalam situasi ini, Anda harus memiliki efek yang sangat mirip, kecuali dengan gagasan yang lebih baik tentang interval prediksi Anda yang sebenarnya.
Wayne

Jawaban:

17

Itu tergantung pada sifat data, tetapi secara umum saya akan mengharapkan model campuran mengungguli model efek tetap saja.

Mari kita ambil contoh: memodelkan hubungan antara sinar matahari dan tinggi batang gandum. Kami memiliki sejumlah pengukuran tangkai individual, tetapi banyak tangkai diukur di lokasi yang sama (yang serupa di tanah, air dan hal-hal lain yang dapat mempengaruhi ketinggian). Berikut adalah beberapa model yang mungkin:

1) tinggi ~ sinar matahari

2) tinggi ~ sinar matahari + situs

3) tinggi ~ sinar matahari + (1 | situs)

Kami ingin menggunakan model ini untuk memprediksi ketinggian batang gandum baru mengingat beberapa perkiraan sinar matahari yang akan mereka alami. Saya akan mengabaikan hukuman parameter yang akan Anda bayarkan karena memiliki banyak situs dalam model efek-tetap saja, dan hanya mempertimbangkan kekuatan prediksi relatif dari model.

Pertanyaan paling relevan di sini adalah apakah titik data baru yang ingin Anda prediksi berasal dari salah satu situs yang telah Anda ukur; Anda mengatakan ini jarang terjadi di dunia nyata, tetapi itu memang terjadi.

A) Data baru berasal dari situs yang telah Anda ukur

Jika demikian, model # 2 dan # 3 akan mengungguli # 1. Keduanya menggunakan informasi yang lebih relevan (efek situs berarti) untuk membuat prediksi.

B) Data baru berasal dari situs yang tidak diukur

Saya masih berharap model # 3 mengungguli # 1 dan # 2, karena alasan berikut.

(i) Model # 3 vs # 1:

Model # 1 akan menghasilkan estimasi yang bias dalam mendukung situs yang terlalu banyak diwakili. Jika Anda memiliki jumlah poin yang sama dari setiap situs dan sampel situs yang cukup representatif, Anda harus mendapatkan hasil yang sama dari keduanya.

(ii) Model # 3 vs. # 2:

Mengapa model # 3 lebih baik daripada model # 2 dalam kasus ini? Karena efek acak memanfaatkan penyusutan - efek situs akan 'menyusut' ke nol. Dengan kata lain, Anda akan cenderung menemukan nilai ekstrem yang lebih rendah untuk efek situs saat ditetapkan sebagai efek acak daripada ketika ditetapkan sebagai efek tetap. Ini berguna dan meningkatkan kemampuan prediksi Anda ketika populasi berarti dapat dianggap diambil dari distribusi normal (lihat Paradox Stein dalam Statistik ). Jika mean populasi tidak diharapkan untuk mengikuti distribusi normal, ini mungkin menjadi masalah, tetapi biasanya asumsi yang sangat masuk akal dan metode ini kuat untuk penyimpangan kecil.

[Catatan tambahan: secara default, ketika memasang model # 2, sebagian besar perangkat lunak akan menggunakan salah satu situs sebagai referensi dan memperkirakan koefisien untuk situs lain yang mewakili penyimpangan dari referensi. Jadi mungkin tampak seolah-olah tidak ada cara untuk menghitung 'efek populasi' secara keseluruhan. Tetapi Anda dapat menghitung ini dengan rata-rata di seluruh prediksi untuk semua situs individu, atau lebih sederhana dengan mengubah pengkodean model sehingga koefisien dihitung untuk setiap situs.]

mkt - Pasang kembali Monica
sumber
Terima kasih atas jawabannya. Saya agak yakin. Sayangnya saya tidak ingat sekarang kasus yang tepat yang memotivasi pertanyaan saya, tetapi saya berpikir bahwa kinerja yang buruk dari model campuran dalam kasus saya mungkin disebabkan oleh distribusi prediktor yang saya gunakan dalam model yang sangat tidak teratur. Saya akan segera menerima jawabannya, tetapi karena pertanyaan itu menarik sedikit perhatian saya akan memberikan beberapa hari lagi sehingga seseorang mungkin dapat memberikan penjelasan yang lebih ketat (mungkin dengan beberapa contoh).
sztal
1
Baik. Perlu dicatat bahwa secara hierarki memprediksi efek spesifik-situs yang menimbulkan efek acak, untuk memprediksi apapun intersep acak atau kemiringan acak yang diperkirakan secara empiris dari model harus setara dengan hanya memiliki sekelompok level individu dan efek tetap spesifik lokasi dalam model.
AdamO
8

Menindaklanjuti respons mkt yang sangat baik: Dari pengalaman pribadi saya mengembangkan model prediktif di bidang asuransi kesehatan, menggabungkan efek acak ke dalam model prediktif (termasuk model pembelajaran mesin) memiliki sejumlah keunggulan.

Saya sering diminta untuk membuat model yang memprediksi hasil klaim masa depan untuk (misalnya, biaya kesehatan masa depan, lama menginap, dll) berdasarkan data klaim historis seseorang. Seringkali ada beberapa klaim per individu dengan hasil yang berkorelasi. Mengabaikan fakta bahwa banyak klaim dibagikan oleh pasien yang sama akan membuang informasi berharga dalam model prediksi.

Salah satu solusinya adalah membuat variabel indikator efek tetap untuk setiap anggota dalam dataset dan menggunakan regresi yang dikenakan sanksi untuk mengecilkan masing-masing efek tetap tingkat-anggota secara terpisah. Namun, jika ada ribuan atau jutaan anggota dalam data Anda, solusi yang lebih efisien dari sudut pandang komputasi dan prediktif mungkin untuk mewakili beberapa efek tetap tingkat-anggota sebagai istilah efek acak tunggal dengan distribusi normal.

RobertF
sumber