Beberapa imputasi untuk variabel hasil

17

Saya punya dataset tentang uji coba pertanian. Variabel respons saya adalah rasio respons: log (pengobatan / kontrol). Saya tertarik pada apa yang memediasi perbedaan, jadi saya menjalankan RE meta-regresi (tidak berbobot, karena tampaknya cukup jelas bahwa ukuran efek tidak berkorelasi dengan varian perkiraan).

Setiap studi melaporkan hasil gabah, hasil biomassa, atau keduanya. Saya tidak bisa menyalahkan hasil gabah dari penelitian yang melaporkan hasil biomassa saja, karena tidak semua tanaman yang dipelajari bermanfaat untuk gabah (tebu dimasukkan, misalnya). Tetapi setiap tanaman yang menghasilkan biji-bijian juga memiliki biomassa.

Untuk kovariat yang hilang, saya telah menggunakan imputasi regresi berulang (mengikuti bab buku Andrew Gelman). Tampaknya memberikan hasil yang masuk akal, dan keseluruhan proses umumnya intuitif. Pada dasarnya saya memprediksi nilai-nilai yang hilang, dan menggunakan nilai-nilai yang diprediksi untuk memprediksi nilai-nilai yang hilang, dan loop melalui setiap variabel sampai masing-masing variabel kira-kira konvergen (dalam distribusi).

Apakah ada alasan mengapa saya tidak dapat menggunakan proses yang sama untuk menghubungkan data hasil yang hilang? Saya mungkin dapat membentuk model imputasi yang relatif informatif untuk rasio respons biomassa mengingat rasio respons biji-bijian, jenis tanaman, dan kovariat lainnya yang saya miliki. Saya kemudian akan rata-rata koefisien dan VCV, dan menambahkan koreksi MI sesuai praktik standar.

Tetapi apa yang diukur koefisien ini ketika hasil itu sendiri diperhitungkan? Apakah interpretasi koefisien berbeda dari MI standar untuk kovariat? Memikirkan hal itu, saya tidak dapat meyakinkan diri saya bahwa ini tidak berhasil, tetapi saya tidak begitu yakin. Pikiran dan saran untuk bahan bacaan dipersilahkan.

generic_user
sumber
Saya belum mendapatkan jawabannya, tetapi satu pertanyaan dan dua catatan: 1) log rasio, tentu saja, perbedaan log. Jadi DV Anda setara dengan log (pengobatan) - log (kontrol). 2) Buku teks Gelman mana yang Anda lihat?
Peter Flom - Reinstate Monica
Ya, DV setara dengan log (pengobatan) -log (kontrol). Saya mendasarkan imputasi regresi berulang pada bab (nonteknis) pada data yang hilang yang diposting Gelman online: stat.columbia.edu/ ~gelman
generic_user
Saya telah diberitahu bahwa memasukkan hasil mengarah ke kesalahan Monte Carlo. Akan mencoba mencari tautan nanti. Jangan lupa bahwa Anda harus memastikan untuk memasukkan hasil dalam model imputasi untuk kovariat.
DL Dahly

Jawaban:

19

Seperti yang Anda duga, valid untuk menggunakan beberapa imputasi untuk ukuran hasil. Ada kasus-kasus di mana ini berguna, tetapi bisa juga berisiko. Saya mempertimbangkan situasi di mana semua kovariat lengkap, dan hasilnya tidak lengkap.

Jika model imputasi sudah benar, kami akan mendapatkan kesimpulan yang valid pada estimasi parameter dari data yang dimasukkan. Kesimpulan yang diperoleh dari hanya kasus lengkap sebenarnya bisa salah jika hilangnya terkait dengan hasil setelah pengkondisian pada prediktor, yaitu di bawah MNAR. Jadi imputasi berguna jika kita tahu (atau mencurigai) bahwa datanya adalah MNAR.

Di bawah MAR, umumnya tidak ada manfaat untuk menyalahkan hasil, dan untuk jumlah imputasi yang rendah hasilnya bahkan mungkin agak lebih bervariasi karena kesalahan simulasi. Ada pengecualian penting untuk ini. Jika kita memiliki akses ke variabel lengkap bantu yang bukan merupakan bagian dari model dan yang sangat berkorelasi dengan hasil, imputasi dapat jauh lebih efisien daripada analisis kasus lengkap, sehingga menghasilkan perkiraan yang lebih tepat dan interval kepercayaan yang lebih pendek. Skenario umum di mana ini terjadi adalah jika kita memiliki ukuran hasil yang murah untuk semua orang, dan ukuran yang mahal untuk subset.

Dalam banyak set data, data yang hilang juga terjadi pada variabel independen. Dalam kasus ini, kita perlu menyalahkan variabel hasil karena versi imputasinya diperlukan untuk menyalahkan variabel independen.

Stef van Buuren
sumber
Terima kasih, ini konsisten dengan intuisi saya, tetapi bisakah Anda membagikan tautan ke penelitian yang telah dilakukan dengan baik yang melibatkan variabel dependen? Salah satu alasan utama saya ingin menyalahkan ukuran hasil adalah untuk meningkatkan ukuran sampel (dari sekitar 250 menjadi sekitar 450), untuk memfasilitasi istilah interaksi produk semi-parametrik tensor dalam GAM yang memiliki persyaratan df sangat tinggi (sebelum mereka mendapatkan dihukum, menurunkan EDF). MAR masuk akal dalam kasus saya.
generic_user
1
Sudah banyak dipraktikkan bagi ANOVA untuk mendapatkan desain yang seimbang. Lihat pengenalan RJA Little, Regresi dengan X yang hilang, JASA 1992. Saya kira Anda tahu bahwa meningkatkan ukuran sampel dengan cara ini tidak membantu Anda untuk mendapatkan perkiraan yang lebih tepat. Untuk kasus variabel tambahan, baca bagian super-efisiensi dalam DB Rubin, Multiple Imputation setelah 18+ Tahun, JASA 1996.
Stef van Buuren
1
"Di bawah MAR, umumnya tidak ada manfaat untuk menyalahkan hasil" - Saya telah melihat ini disebutkan sebelumnya, tapi saya tidak punya referensi untuk itu - bisakah Anda memberikannya?
Robert Long
Saya pikir Anda dapat mengutip Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 untuk itu, tetapi harap perhatikan pengecualian.
Stef van Buuren
1
@StefvanBuuren - jawaban yang bermanfaat untuk sebagian besar, tetapi pemahaman saya adalah bahwa "jika kita tahu (atau mencurigai) bahwa data adalah MNAR" maka imputasi tidak dapat menyelesaikan masalah kita seperti analisis kasus lengkap. Ini tampaknya termasuk dalam kategori "tidak ada makan siang gratis".
rolando2
2

Data hasil yang dipermasalahkan sangat umum dan mengarah ke inferensi yang benar ketika memperhitungkan kesalahan acak.

Kedengarannya seperti apa yang Anda lakukan adalah imputasi tunggal, dengan memasukkan nilai-nilai yang hilang dengan rata-rata bersyarat di bawah analisis kasus lengkap. Yang harus Anda lakukan adalah imputasi berganda yang, untuk kovariat berkesinambungan, bertanggung jawab atas kesalahan acak yang akan Anda amati seandainya Anda secara surut mengukur nilai-nilai yang hilang ini. Algoritma EM bekerja dengan cara yang sama dengan rata-rata berbagai hasil yang mungkin diamati.

Imputasi tunggal memberikan estimasi parameter model yang benar ketika tidak ada hubungan mean-variance, tetapi memberikan estimasi kesalahan standar yang bias menuju nol, menggembungkan tingkat kesalahan tipe I. Ini karena Anda "optimis" tentang tingkat kesalahan yang akan Anda amati seandainya Anda mengukur faktor-faktor ini.

Beberapa imputasi adalah proses iteratif menghasilkan kesalahan aditif untuk imputasi rata-rata bersyarat, sehingga melalui 7 atau 8 imputasi simulasi, Anda dapat menggabungkan model dan kesalahannya untuk mendapatkan perkiraan yang benar dari parameter model dan kesalahan standar mereka. Jika Anda secara bersama-sama kehilangan kovariat dan hasil, maka ada perangkat lunak dalam SAS, STATA, dan R yang disebut beberapa imputasi melalui persamaan berantai di mana kumpulan data "selesai" (kumpulan data dengan nilai imputasi yang diperlakukan sebagai tetap dan non-acak) dihasilkan, model parameter diestimasi dari setiap dataset lengkap, dan estimasi parameter dan kesalahan standarnya digabungkan menggunakan formasi matematika yang benar (detail dalam makalah Van Buuren).

Perbedaan kecil antara proses dalam MI dan proses yang Anda jelaskan adalah bahwa Anda belum memperhitungkan fakta bahwa memperkirakan distribusi kondisional dari hasil menggunakan data yang dimasukkan akan tergantung pada urutan mana Anda menentukan faktor-faktor tertentu. Anda seharusnya memperkirakan distribusi kondisional dari pengkondisian kovariat yang hilang pada hasil dalam MI, jika tidak, Anda akan mendapatkan estimasi parameter yang bias.

AdamO
sumber
Terima kasih. Pertama, saya memprogram semuanya dari awal di R, tidak menggunakan MICE atau MI. Yang kedua, saya mengutak-atik dengan menarik dari distribusi prediksi (model), bukan hanya harapan bersyarat. Apakah itu yang Anda bicarakan pada paragraf kedua? Jika tidak, saya akan menghargai klarifikasi. Juga, makalah Royston mana yang Anda maksud? Untuk poin terakhir Anda - apakah Anda mengatakan sesuatu yang lebih rumit daripada "Anda harus meletakkan variabel dependen Anda dalam model imputasi."? Jika demikian, saya akan sangat menghargai klarifikasi.
generic_user
Terakhir - Saya tidak melakukan imputasi tunggal. Saya mencocokkan 30 model dengan mengisi data dan menggunakan rumus B V_b = W + (1 + 1 / m) dari Rubin.
generic_user
Makalah Royston hyperlink. Sebenarnya saya bermaksud menghubungkan Van Buuren yang mengimplementasikan program dalam R dan memasukkan detail komputasi: doc.utwente.nl/78938 MICE / MI adalah sebuah proses. Jika Anda memasukkan berdasarkan kode yang dibuat di rumah, Anda harus menjelaskan lebih detail. Conditional means = nilai prediksi jika modelnya benar (atau kira-kira demikian, asumsi yang diperlukan). Ini lebih rumit daripada "tambahkan hasilnya", itu karena Anda memasukkan beberapa pola yang hilang (setidaknya 3, hilang kovariat / hasil / bersama-sama hilang).
AdamO
Jika Anda secara tunggal menghitung nilai prediksi 30 kali, Anda harus mendapatkan hasil yang sama 30 kali. Bagaimana Anda memperkirakan kesalahan?
AdamO
fsayat,sayamhal