Beberapa imputasi cukup mudah ketika Anda memiliki model linear apriori yang ingin Anda perkirakan. Namun, hal-hal tampaknya menjadi sedikit lebih rumit ketika Anda benar-benar ingin melakukan pemilihan model (misalnya menemukan variabel prediktor "terbaik" dari variabel kandidat yang lebih besar - saya sedang berpikir secara khusus tentang LASSO dan polinomial pecahan menggunakan R).
Satu ide adalah mencocokkan model dalam data asli dengan nilai-nilai yang hilang, dan kemudian mengestimasi ulang model ini dalam dataset MI dan menggabungkan estimasi seperti biasanya. Namun, ini tampaknya bermasalah karena Anda mengharapkan bias (atau mengapa MI pada awalnya?), Yang dapat menyebabkan pemilihan model yang "salah" sejak awal.
Gagasan lain adalah melalui proses pemilihan model apa pun yang Anda gunakan dalam setiap dataset MI - tetapi bagaimana Anda kemudian menggabungkan hasil jika mereka memasukkan set variabel yang berbeda?
Satu pemikiran yang saya miliki adalah menumpuk satu set set data MI dan menganalisisnya sebagai satu set data besar yang kemudian akan Anda gunakan agar sesuai dengan model tunggal, "terbaik", dan memasukkan efek acak untuk menjelaskan fakta bahwa Anda menggunakan ukuran berulang untuk setiap pengamatan.
Apakah ini masuk akal? Atau mungkin sangat naif? Setiap petunjuk tentang masalah ini (pemilihan model dengan imputasi ganda) akan sangat dihargai.
sumber
Jawaban:
Ada banyak hal yang bisa Anda lakukan untuk memilih variabel dari data berlipat ganda, tetapi tidak semua menghasilkan estimasi yang sesuai. Lihat Wood et al (2008) Stat Med untuk perbandingan berbagai kemungkinan.
Saya telah menemukan prosedur dua langkah berikut berguna dalam praktik.
Langkah pra-pemilihan 1 disertakan untuk mengurangi jumlah perhitungan. Lihat http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (bagian 6.4.2) untuk contoh kode metode dua langkah dalam R menggunakan
mice()
. Di Stata, Anda dapat melakukan Langkah 2 (pada semua variabel) denganmim:stepwise
.sumber
Sangat mudah: Anda dapat menerapkan aturan penggabungan MI standar - tetapi efek variabel yang tidak didukung di seluruh kumpulan data yang dipermasalahkan akan kurang diucapkan. Misalnya, jika suatu variabel tidak dipilih dalam dataset imputed tertentu, estimasi (termasuk varians) adalah nol dan ini harus tercermin dalam estimasi yang digunakan saat menggunakan beberapa imputasi. Anda dapat mempertimbangkan bootstrap untuk membuat interval kepercayaan untuk memasukkan ketidakpastian pemilihan model, lihat publikasi terbaru ini yang membahas semua pertanyaan: http://www.sciencedirect.com/science/article/pii/S016794731300073X
Saya akan menghindari menggunakan pendekatan pragmatis seperti memilih variabel jika dipilih dalam set data m / 2 atau serupa, karena inferensi tidak jelas dan lebih rumit daripada yang terlihat pada pandangan pertama.
sumber
Saya mengalami masalah yang sama.
Pilihan saya adalah apa yang disebut "laso multipel imputasi". Pada dasarnya itu menggabungkan semua dataset diperhitungkan bersama-sama dan mengadopsi konsep kelompok lasso: setiap variabel kandidat akan menghasilkan m variabel dummy. Setiap variabel dummy sesuai dengan dataset yang dimasukkan.
Maka semua m variabel dummy dikelompokkan. Anda juga akan membuang variabel kandidat m variabel dummy dalam semua dataset diperhitungkan atau menjaga mereka dalam semua dataset diperhitungkan.
Jadi regresi laso sebenarnya cocok pada semua dataset yang diimputasi bersama.
Periksa kertas :
Chen, Q. & Wang, S. (2013). "Pemilihan variabel untuk data multiply-imputed dengan aplikasi untuk studi paparan dioksin," Statistics in Medicine, 32: 3646-59.
Dan program R. yang relevan
sumber
Saya telah menghadapi masalah yang sama - Saya punya dataset yang saya tahu sejak awal bahwa saya ingin memasukkan semua variabel (saya lebih tertarik pada koefisien daripada prediksi), tetapi saya tidak tahu priori interaksi apa yang harus ditentukan.
Pendekatan saya adalah menulis satu set model kandidat, melakukan beberapa imputasi, memperkirakan beberapa model, dan hanya menyimpan dan rata-rata AIC dari masing-masing model. Spesifikasi model dengan rata-rata AIC terendah dipilih.
Saya berpikir tentang menambahkan koreksi di mana saya menghukum varians antara-imputasi di AIC. Namun pada refleksi, ini sepertinya tidak ada gunanya.
Pendekatan itu tampaknya cukup mudah bagi saya, tetapi saya menciptakannya sendiri, dan saya bukan ahli statistik yang terkenal. Sebelum menggunakannya, Anda mungkin ingin menunggu sampai orang-orang mengoreksi saya (yang akan diterima!) Atau memperbarui jawaban ini.
sumber