Beberapa imputasi dan pemilihan model

21

Beberapa imputasi cukup mudah ketika Anda memiliki model linear apriori yang ingin Anda perkirakan. Namun, hal-hal tampaknya menjadi sedikit lebih rumit ketika Anda benar-benar ingin melakukan pemilihan model (misalnya menemukan variabel prediktor "terbaik" dari variabel kandidat yang lebih besar - saya sedang berpikir secara khusus tentang LASSO dan polinomial pecahan menggunakan R).

Satu ide adalah mencocokkan model dalam data asli dengan nilai-nilai yang hilang, dan kemudian mengestimasi ulang model ini dalam dataset MI dan menggabungkan estimasi seperti biasanya. Namun, ini tampaknya bermasalah karena Anda mengharapkan bias (atau mengapa MI pada awalnya?), Yang dapat menyebabkan pemilihan model yang "salah" sejak awal.

Gagasan lain adalah melalui proses pemilihan model apa pun yang Anda gunakan dalam setiap dataset MI - tetapi bagaimana Anda kemudian menggabungkan hasil jika mereka memasukkan set variabel yang berbeda?

Satu pemikiran yang saya miliki adalah menumpuk satu set set data MI dan menganalisisnya sebagai satu set data besar yang kemudian akan Anda gunakan agar sesuai dengan model tunggal, "terbaik", dan memasukkan efek acak untuk menjelaskan fakta bahwa Anda menggunakan ukuran berulang untuk setiap pengamatan.

Apakah ini masuk akal? Atau mungkin sangat naif? Setiap petunjuk tentang masalah ini (pemilihan model dengan imputasi ganda) akan sangat dihargai.

DL Dahly
sumber
2
Harap edit posting ini untuk mengubah "model fitting" menjadi "pemilihan model". Akan sangat membantu untuk membahas metode apa yang Anda gunakan. Misalnya, jika pemilihan model bertahap berdasarkan nilai-p digunakan, maka penumpukan data yang dimasukkan benar-benar TIDAK diizinkan. Anda dapat menggambar contoh bootstrap data Anda, termasuk data yang hilang berlaku MI dan proses pemilihan model selanjutnya dan menghitung "nilai-p" yang tepat untuk model yang dipilih.
AdamO
Dalam paragraf kedua Anda, mengapa menurut Anda metode itu melenceng dari beberapa imputasi? Juga, perangkat lunak apa yang Anda gunakan?
Peter Flom - Reinstate Monica

Jawaban:

10

Ada banyak hal yang bisa Anda lakukan untuk memilih variabel dari data berlipat ganda, tetapi tidak semua menghasilkan estimasi yang sesuai. Lihat Wood et al (2008) Stat Med untuk perbandingan berbagai kemungkinan.

Saya telah menemukan prosedur dua langkah berikut berguna dalam praktik.

  1. Terapkan metode pemilihan variabel pilihan Anda secara independen ke masing-masing set data imputed. Anda akan berakhir dengan model yang berbeda. Untuk setiap variabel, hitung berapa kali itu muncul dalam model. Pilih variabel-variabel yang muncul di setidaknya setengah dari model .m mmmm
  2. Gunakan nilai-p dari statistik Wald atau uji rasio kemungkinan yang dihitung dari set data multiply-imputed sebagai kriteria untuk pemilihan model bertahap lebih lanjut.m

Langkah pra-pemilihan 1 disertakan untuk mengurangi jumlah perhitungan. Lihat http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (bagian 6.4.2) untuk contoh kode metode dua langkah dalam R menggunakan mice(). Di Stata, Anda dapat melakukan Langkah 2 (pada semua variabel) dengan mim:stepwise.

Stef van Buuren
sumber
Stef, harap sertakan tautan ke publikasi Stat Med. Saya mencoba untuk mempercantik jawaban Anda juga.
Tugas
1
Rutin yang diusulkan mungkin masuk akal hanya ketika Anda memilih dari set regresi yang ditentukan sebelumnya. Tetapi jika saya memilih mengatakan tren kuadratik, 5- dan 9-simpul B-splines, dan mungkin menjadi CART, saya tidak yakin bagaimana menerapkan proposal ini.
Tugas
Namun, prosedur mengasumsikan bahwa model imputasi sudah benar. Khususnya metode imputasi harus secara memadai menangkap semua fitur dalam data yang Anda mungkin tertarik kemudian. Jadi, jika Anda ingin memasukkan istilah kuadrat atau B-splines ke dalam analisis data lengkap Anda, maka model imputasi harus diatur sedemikian rupa sehingga fitur-fitur tersebut dipertahankan dalam data yang dimasukkan (Catatan: ini mungkin sebenarnya sulit untuk dicapai , tapi itu topiknya sendiri). Mengingat bahwa model imputasi ditentukan dengan benar, saya akan mengatakan bahwa prosedur pemilihan dua langkah berlaku.
Stef van Buuren
Nah, maka pada dasarnya model imputasi harus menjadi model terkaya. Saya telah menemukan situasi ketika itu tidak cukup berhasil, seperti prediksi sempurna dalam model logistik yang terlalu banyak diukur.
Tugas
Sepakat. Anda harus menyalahkan di bawah model terkaya. Jadi, pertama-tama tentukan analisis paling kompleks yang ingin Anda lakukan, dan sesuaikan model imputasi dengan itu. Ini mungkin sulit untuk dicapai dalam praktiknya, dan menjadi lebih sulit ketika kompleksitas model data lengkap tumbuh. Tidak ada makan siang gratis. Prediksi sempurna dalam regresi logistik telah diselesaikan dalam beberapa cara, dan tidak perlu menghadirkan batu sandungan utama.
Stef van Buuren
4

Sangat mudah: Anda dapat menerapkan aturan penggabungan MI standar - tetapi efek variabel yang tidak didukung di seluruh kumpulan data yang dipermasalahkan akan kurang diucapkan. Misalnya, jika suatu variabel tidak dipilih dalam dataset imputed tertentu, estimasi (termasuk varians) adalah nol dan ini harus tercermin dalam estimasi yang digunakan saat menggunakan beberapa imputasi. Anda dapat mempertimbangkan bootstrap untuk membuat interval kepercayaan untuk memasukkan ketidakpastian pemilihan model, lihat publikasi terbaru ini yang membahas semua pertanyaan: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Saya akan menghindari menggunakan pendekatan pragmatis seperti memilih variabel jika dipilih dalam set data m / 2 atau serupa, karena inferensi tidak jelas dan lebih rumit daripada yang terlihat pada pandangan pertama.

Michael
sumber
3

Saya mengalami masalah yang sama.

Pilihan saya adalah apa yang disebut "laso multipel imputasi". Pada dasarnya itu menggabungkan semua dataset diperhitungkan bersama-sama dan mengadopsi konsep kelompok lasso: setiap variabel kandidat akan menghasilkan m variabel dummy. Setiap variabel dummy sesuai dengan dataset yang dimasukkan.

Maka semua m variabel dummy dikelompokkan. Anda juga akan membuang variabel kandidat m variabel dummy dalam semua dataset diperhitungkan atau menjaga mereka dalam semua dataset diperhitungkan.

Jadi regresi laso sebenarnya cocok pada semua dataset yang diimputasi bersama.

Periksa kertas :

Chen, Q. & Wang, S. (2013). "Pemilihan variabel untuk data multiply-imputed dengan aplikasi untuk studi paparan dioksin," Statistics in Medicine, 32: 3646-59.

Dan program R. yang relevan

Fan Wang
sumber
Saya pikir saya benar-benar mengirim email kepada Anda tentang hal ini beberapa tahun yang lalu :)
DL Dahly
1

Saya telah menghadapi masalah yang sama - Saya punya dataset yang saya tahu sejak awal bahwa saya ingin memasukkan semua variabel (saya lebih tertarik pada koefisien daripada prediksi), tetapi saya tidak tahu priori interaksi apa yang harus ditentukan.

Pendekatan saya adalah menulis satu set model kandidat, melakukan beberapa imputasi, memperkirakan beberapa model, dan hanya menyimpan dan rata-rata AIC dari masing-masing model. Spesifikasi model dengan rata-rata AIC terendah dipilih.

Saya berpikir tentang menambahkan koreksi di mana saya menghukum varians antara-imputasi di AIC. Namun pada refleksi, ini sepertinya tidak ada gunanya.

Pendekatan itu tampaknya cukup mudah bagi saya, tetapi saya menciptakannya sendiri, dan saya bukan ahli statistik yang terkenal. Sebelum menggunakannya, Anda mungkin ingin menunggu sampai orang-orang mengoreksi saya (yang akan diterima!) Atau memperbarui jawaban ini.

generic_user
sumber
Terima kasih balasannya. Sayangnya apa yang saya benar-benar tertarik adalah menggunakan metode pemilihan model yang lebih otomatis / eksplorasi yang tidak meminjamkan diri mereka untuk terlebih dahulu memilih serangkaian model kandidat yang masuk akal.
DL Dahly