Logika multiple imputation (MI) adalah untuk menghitung nilai yang hilang tidak hanya sekali tetapi beberapa kali (biasanya M = 5) kali, menghasilkan set data selesai M. Kumpulan data M lengkap kemudian dianalisis dengan metode data lengkap tempat estimasi M dan kesalahan standarnya digabungkan menggunakan rumus Rubin untuk mendapatkan taksiran "keseluruhan" dan kesalahan standarnya.
Bagus sejauh ini, tapi saya tidak yakin bagaimana menerapkan resep ini ketika komponen varians dari model efek campuran diperhatikan. Distribusi sampel dari komponen varians asimetris - oleh karena itu interval kepercayaan yang sesuai tidak dapat diberikan dalam bentuk "perkiraan ± 1,96 * se (perkiraan)" yang khas. Untuk alasan ini paket R lme4 dan nlme bahkan tidak memberikan kesalahan standar dari komponen varians, tetapi hanya memberikan interval kepercayaan.
Karena itu kami dapat melakukan MI pada dataset dan kemudian mendapatkan interval kepercayaan M per komponen varians setelah pas dengan model efek-campuran yang sama pada set data M selesai. Pertanyaannya adalah bagaimana menggabungkan interval M ini menjadi satu interval kepercayaan "keseluruhan".
Saya kira ini harus dimungkinkan - penulis artikel (yucel & demirtas (2010) Dampak efek acak tidak normal pada inferensi oleh MI) tampaknya telah melakukannya, tetapi mereka tidak menjelaskan bagaimana tepatnya.
Setiap tips akan sangat wajib!
Cheers, Rok
Jawaban:
Ini pertanyaan yang bagus! Tidak yakin ini adalah jawaban yang lengkap, namun, saya lewati beberapa baris ini seandainya itu membantu.
Tampaknya Yucel dan Demirtas (2010) merujuk pada makalah yang lebih tua yang diterbitkan dalam JCGS, strategi komputasi untuk model efek campuran linier multivariat dengan nilai-nilai yang hilang , yang menggunakan pendekatan skoring EM / Fisher hybrid untuk menghasilkan perkiraan VC berbasis kemungkinan. . Ini telah diimplementasikan dalam paket R mlmmm . Namun, saya tidak tahu apakah itu menghasilkan CI.
Kalau tidak, saya pasti akan memeriksa program WinBUGS , yang sebagian besar digunakan untuk model multilevel, termasuk yang memiliki data yang hilang. Sepertinya saya ingat itu hanya akan berfungsi jika MV Anda berada dalam variabel respon, bukan dalam kovariat karena kita umumnya harus menentukan distribusi bersyarat penuh (jika MV hadir dalam variabel independen, itu berarti bahwa kita harus memberikan sebelum X yang hilang, dan itu akan dianggap sebagai parameter untuk diestimasi oleh WinBUGS ...). Tampaknya berlaku untuk R juga, jika saya merujuk pada utas berikut pada r-sig-mixed, data yang hilang di lme, lmer, PROC MIXED . Juga, mungkin ada baiknya melihat perangkat lunak MLwiN .
sumber
Komentar berulang dari atas:
Saya tidak yakin bahwa solusi analitik yang tepat untuk masalah ini bahkan ada. Saya telah melihat beberapa literatur tambahan, tetapi masalah ini diabaikan dengan elegan di mana-mana. Saya juga memperhatikan bahwa Yucel & Demirtas (dalam artikel yang saya sebutkan, halaman 798) menulis:
Tampaknya mereka menggunakan semacam jalan pintas untuk memperkirakan SE dari komponen varians (yang, tentu saja, tidak tepat, karena CI asimetris) dan kemudian menerapkan rumus klasik.
sumber
Penafian: Gagasan ini mungkin bodoh & saya tidak akan berpura-pura memahami implikasi teoretis dari apa yang saya usulkan.
" Saran " : Mengapa Anda tidak menyalahkan 100 (saya tahu Anda biasanya melakukan 5) dataset, jalankan lme4 atau nmle, dapatkan interval kepercayaan (Anda memiliki 100 di antaranya) dan kemudian:
Dengan menggunakan lebar interval kecil (katakan kisaran / 1000 atau sesuatu), ujilah rentang nilai yang mungkin dari setiap parameter dan sertakan hanya interval kecil yang muncul dalam setidaknya 95 dari 100 CI. Anda kemudian akan memiliki "rata-rata" interval kepercayaan Anda dari Monte Carlo.
Saya yakin ada masalah (atau mungkin masalah teoritis) dengan pendekatan ini. Misalnya, Anda bisa berakhir dengan serangkaian interval terpisah . Ini mungkin atau mungkin bukan hal buruk tergantung pada bidang Anda. Perhatikan bahwa ini hanya mungkin jika Anda memiliki setidaknya dua interval kepercayaan yang sepenuhnya tidak tumpang tindih yang dipisahkan oleh wilayah dengan cakupan kurang dari 95%.
Anda mungkin juga mempertimbangkan sesuatu yang lebih dekat dengan perlakuan Bayesian tentang data yang hilang untuk mendapatkan wilayah kredibel posterior yang tentunya akan lebih baik dibentuk & lebih banyak dukungan teoretis daripada saran ad-hoc saya.
sumber