Cara menggabungkan interval kepercayaan untuk komponen varians dari model efek campuran saat menggunakan beberapa imputasi

20

Logika multiple imputation (MI) adalah untuk menghitung nilai yang hilang tidak hanya sekali tetapi beberapa kali (biasanya M = 5) kali, menghasilkan set data selesai M. Kumpulan data M lengkap kemudian dianalisis dengan metode data lengkap tempat estimasi M dan kesalahan standarnya digabungkan menggunakan rumus Rubin untuk mendapatkan taksiran "keseluruhan" dan kesalahan standarnya.

Bagus sejauh ini, tapi saya tidak yakin bagaimana menerapkan resep ini ketika komponen varians dari model efek campuran diperhatikan. Distribusi sampel dari komponen varians asimetris - oleh karena itu interval kepercayaan yang sesuai tidak dapat diberikan dalam bentuk "perkiraan ± 1,96 * se (perkiraan)" yang khas. Untuk alasan ini paket R lme4 dan nlme bahkan tidak memberikan kesalahan standar dari komponen varians, tetapi hanya memberikan interval kepercayaan.

Karena itu kami dapat melakukan MI pada dataset dan kemudian mendapatkan interval kepercayaan M per komponen varians setelah pas dengan model efek-campuran yang sama pada set data M selesai. Pertanyaannya adalah bagaimana menggabungkan interval M ini menjadi satu interval kepercayaan "keseluruhan".

Saya kira ini harus dimungkinkan - penulis artikel (yucel & demirtas (2010) Dampak efek acak tidak normal pada inferensi oleh MI) tampaknya telah melakukannya, tetapi mereka tidak menjelaskan bagaimana tepatnya.

Setiap tips akan sangat wajib!

Cheers, Rok

Rok
sumber
Pertanyaan yang sangat menarik. Saya berharap dapat mendengar hasil Anda, jika Anda ingin membagikannya ...
chl
@ chl: Saya dapat mengirimi Anda tabel dengan hasil setelah selesai, tetapi saya tidak akan menemukan sesuatu yang benar-benar baru. Sejauh ini saya hanya berencana untuk membandingkan MI di bawah model imputasi dua tingkat (paket R) dengan MI di bawah model normal sederhana (mengabaikan struktur dua tingkat, norma paket R) dan penghapusan listwise. Di bawah ukuran sampel yang berbeda, nilai-nilai komponen varians dll. Ini harus cukup untuk seminar (saya seorang mahasiswa PhD), tetapi tidak persis inovatif. Jika Anda punya ide tentang cara "meramaikan" studi simulasi, saya ingin mendengar.
Rok
1
Satu hal lagi: saya tidak yakin ada solusi analitik yang tepat untuk masalah ini. Saya telah melihat beberapa literatur tambahan, tetapi masalah ini terlihat elegan di mana-mana. Saya juga memperhatikan bahwa yucel & demirtas (dalam artikel yang saya sebutkan, halaman 798) menulis: “Kumpulan data berlipat ganda ini digunakan untuk memperkirakan model […] menggunakan paket R lme4 yang mengarah ke 10 set (beta, se (beta) ), (sigma_b, se (sigma_b)) yang kemudian digabungkan menggunakan aturan penggabungan MI yang didefinisikan oleh Rubin. "
Rok
Tampaknya mereka menggunakan semacam cara pintas untuk memperkirakan SE dari komponen varians (yang, tentu saja, tidak tepat, karena CI asimetris) dan kemudian menerapkan rumus klasik.
Rok
Ok, terima kasih untuk itu. Bisakah Anda memasukkan komentar Anda ke dalam jawaban sehingga dapat dipilih?
chl

Jawaban:

8

Ini pertanyaan yang bagus! Tidak yakin ini adalah jawaban yang lengkap, namun, saya lewati beberapa baris ini seandainya itu membantu.

Tampaknya Yucel dan Demirtas (2010) merujuk pada makalah yang lebih tua yang diterbitkan dalam JCGS, strategi komputasi untuk model efek campuran linier multivariat dengan nilai-nilai yang hilang , yang menggunakan pendekatan skoring EM / Fisher hybrid untuk menghasilkan perkiraan VC berbasis kemungkinan. . Ini telah diimplementasikan dalam paket R mlmmm . Namun, saya tidak tahu apakah itu menghasilkan CI.

Kalau tidak, saya pasti akan memeriksa program WinBUGS , yang sebagian besar digunakan untuk model multilevel, termasuk yang memiliki data yang hilang. Sepertinya saya ingat itu hanya akan berfungsi jika MV Anda berada dalam variabel respon, bukan dalam kovariat karena kita umumnya harus menentukan distribusi bersyarat penuh (jika MV hadir dalam variabel independen, itu berarti bahwa kita harus memberikan sebelum X yang hilang, dan itu akan dianggap sebagai parameter untuk diestimasi oleh WinBUGS ...). Tampaknya berlaku untuk R juga, jika saya merujuk pada utas berikut pada r-sig-mixed, data yang hilang di lme, lmer, PROC MIXED . Juga, mungkin ada baiknya melihat perangkat lunak MLwiN .

chl
sumber
Terima kasih banyak atas balasan Anda! Pada prinsipnya saya juga tertarik pada bagaimana menyelesaikan masalah konkret seperti yang saya jelaskan (jadi terima kasih atas tip WinBUGS). Tetapi pada saat ini saya sedang mencoba untuk melakukan studi simulasi untuk makalah seminar di mana saya akan memeriksa kinerja (tingkat cakupan dll) dari MI di bawah spesifikasi model yang salah. Saya kira saya hanya akan melupakan komponen varians jika saya tidak dapat menemukan solusi dan fokus pada efek yang diperbaiki, tetapi frustasi untuk menyerah.
Rok
@Rok Ide bagus untuk simulasi! Saya akan menantikan masalah khusus ini. Saya kira Anda sudah mencari surat r-sig-campuran dan buku Gelman tentang regresi bertingkat ...
chl
Saya melihat sekarang, mencari referensi! Sayangnya, tidak ada pada MI di arsip r-sig-mixed; dan Gelman hanya memberikan formula dasar tentang cara menggabungkan inferensi dari MI ketika kita memiliki variasi di dalam dan di antara imputasi yang diberikan (§25.7).
Rok
6

Komentar berulang dari atas:

Saya tidak yakin bahwa solusi analitik yang tepat untuk masalah ini bahkan ada. Saya telah melihat beberapa literatur tambahan, tetapi masalah ini diabaikan dengan elegan di mana-mana. Saya juga memperhatikan bahwa Yucel & Demirtas (dalam artikel yang saya sebutkan, halaman 798) menulis:

Kumpulan data berlipat ganda ini digunakan untuk memperkirakan model [...] menggunakan paket R yang lme4mengarah ke 10 set (beta, se (beta)), (sigma_b, se (sigma_b)) yang kemudian digabungkan menggunakan aturan penggabungan MI yang ditentukan oleh Rubin.

Tampaknya mereka menggunakan semacam jalan pintas untuk memperkirakan SE dari komponen varians (yang, tentu saja, tidak tepat, karena CI asimetris) dan kemudian menerapkan rumus klasik.

Rok
sumber
Saya menghargai Anda kembali untuk berbagi pengalaman dengan masalah ini. Sayangnya, saya tidak punya solusi nyata tapi mungkin saran lain akan muncul.
chl
"Diabaikan secara elegan" ... itu adalah frasa yang berguna untuk meninjau literatur jika saya pernah mendengarnya.
Matt Parker
3

Penafian: Gagasan ini mungkin bodoh & saya tidak akan berpura-pura memahami implikasi teoretis dari apa yang saya usulkan.

" Saran " : Mengapa Anda tidak menyalahkan 100 (saya tahu Anda biasanya melakukan 5) dataset, jalankan lme4 atau nmle, dapatkan interval kepercayaan (Anda memiliki 100 di antaranya) dan kemudian:

Dengan menggunakan lebar interval kecil (katakan kisaran / 1000 atau sesuatu), ujilah rentang nilai yang mungkin dari setiap parameter dan sertakan hanya interval kecil yang muncul dalam setidaknya 95 dari 100 CI. Anda kemudian akan memiliki "rata-rata" interval kepercayaan Anda dari Monte Carlo.

Saya yakin ada masalah (atau mungkin masalah teoritis) dengan pendekatan ini. Misalnya, Anda bisa berakhir dengan serangkaian interval terpisah . Ini mungkin atau mungkin bukan hal buruk tergantung pada bidang Anda. Perhatikan bahwa ini hanya mungkin jika Anda memiliki setidaknya dua interval kepercayaan yang sepenuhnya tidak tumpang tindih yang dipisahkan oleh wilayah dengan cakupan kurang dari 95%.

Anda mungkin juga mempertimbangkan sesuatu yang lebih dekat dengan perlakuan Bayesian tentang data yang hilang untuk mendapatkan wilayah kredibel posterior yang tentunya akan lebih baik dibentuk & lebih banyak dukungan teoretis daripada saran ad-hoc saya.

M. Tibbits
sumber