Saya punya dataset tentang uji coba pertanian. Variabel respons saya adalah rasio respons: log (pengobatan / kontrol). Saya tertarik pada apa yang memediasi perbedaan, jadi saya menjalankan RE meta-regresi (tidak berbobot, karena tampaknya cukup jelas bahwa ukuran efek tidak berkorelasi dengan varian perkiraan).
Setiap studi melaporkan hasil gabah, hasil biomassa, atau keduanya. Saya tidak bisa menyalahkan hasil gabah dari penelitian yang melaporkan hasil biomassa saja, karena tidak semua tanaman yang dipelajari bermanfaat untuk gabah (tebu dimasukkan, misalnya). Tetapi setiap tanaman yang menghasilkan biji-bijian juga memiliki biomassa.
Untuk kovariat yang hilang, saya telah menggunakan imputasi regresi berulang (mengikuti bab buku Andrew Gelman). Tampaknya memberikan hasil yang masuk akal, dan keseluruhan proses umumnya intuitif. Pada dasarnya saya memprediksi nilai-nilai yang hilang, dan menggunakan nilai-nilai yang diprediksi untuk memprediksi nilai-nilai yang hilang, dan loop melalui setiap variabel sampai masing-masing variabel kira-kira konvergen (dalam distribusi).
Apakah ada alasan mengapa saya tidak dapat menggunakan proses yang sama untuk menghubungkan data hasil yang hilang? Saya mungkin dapat membentuk model imputasi yang relatif informatif untuk rasio respons biomassa mengingat rasio respons biji-bijian, jenis tanaman, dan kovariat lainnya yang saya miliki. Saya kemudian akan rata-rata koefisien dan VCV, dan menambahkan koreksi MI sesuai praktik standar.
Tetapi apa yang diukur koefisien ini ketika hasil itu sendiri diperhitungkan? Apakah interpretasi koefisien berbeda dari MI standar untuk kovariat? Memikirkan hal itu, saya tidak dapat meyakinkan diri saya bahwa ini tidak berhasil, tetapi saya tidak begitu yakin. Pikiran dan saran untuk bahan bacaan dipersilahkan.
sumber
Jawaban:
Seperti yang Anda duga, valid untuk menggunakan beberapa imputasi untuk ukuran hasil. Ada kasus-kasus di mana ini berguna, tetapi bisa juga berisiko. Saya mempertimbangkan situasi di mana semua kovariat lengkap, dan hasilnya tidak lengkap.
Jika model imputasi sudah benar, kami akan mendapatkan kesimpulan yang valid pada estimasi parameter dari data yang dimasukkan. Kesimpulan yang diperoleh dari hanya kasus lengkap sebenarnya bisa salah jika hilangnya terkait dengan hasil setelah pengkondisian pada prediktor, yaitu di bawah MNAR. Jadi imputasi berguna jika kita tahu (atau mencurigai) bahwa datanya adalah MNAR.
Di bawah MAR, umumnya tidak ada manfaat untuk menyalahkan hasil, dan untuk jumlah imputasi yang rendah hasilnya bahkan mungkin agak lebih bervariasi karena kesalahan simulasi. Ada pengecualian penting untuk ini. Jika kita memiliki akses ke variabel lengkap bantu yang bukan merupakan bagian dari model dan yang sangat berkorelasi dengan hasil, imputasi dapat jauh lebih efisien daripada analisis kasus lengkap, sehingga menghasilkan perkiraan yang lebih tepat dan interval kepercayaan yang lebih pendek. Skenario umum di mana ini terjadi adalah jika kita memiliki ukuran hasil yang murah untuk semua orang, dan ukuran yang mahal untuk subset.
Dalam banyak set data, data yang hilang juga terjadi pada variabel independen. Dalam kasus ini, kita perlu menyalahkan variabel hasil karena versi imputasinya diperlukan untuk menyalahkan variabel independen.
sumber
Data hasil yang dipermasalahkan sangat umum dan mengarah ke inferensi yang benar ketika memperhitungkan kesalahan acak.
Kedengarannya seperti apa yang Anda lakukan adalah imputasi tunggal, dengan memasukkan nilai-nilai yang hilang dengan rata-rata bersyarat di bawah analisis kasus lengkap. Yang harus Anda lakukan adalah imputasi berganda yang, untuk kovariat berkesinambungan, bertanggung jawab atas kesalahan acak yang akan Anda amati seandainya Anda secara surut mengukur nilai-nilai yang hilang ini. Algoritma EM bekerja dengan cara yang sama dengan rata-rata berbagai hasil yang mungkin diamati.
Imputasi tunggal memberikan estimasi parameter model yang benar ketika tidak ada hubungan mean-variance, tetapi memberikan estimasi kesalahan standar yang bias menuju nol, menggembungkan tingkat kesalahan tipe I. Ini karena Anda "optimis" tentang tingkat kesalahan yang akan Anda amati seandainya Anda mengukur faktor-faktor ini.
Beberapa imputasi adalah proses iteratif menghasilkan kesalahan aditif untuk imputasi rata-rata bersyarat, sehingga melalui 7 atau 8 imputasi simulasi, Anda dapat menggabungkan model dan kesalahannya untuk mendapatkan perkiraan yang benar dari parameter model dan kesalahan standar mereka. Jika Anda secara bersama-sama kehilangan kovariat dan hasil, maka ada perangkat lunak dalam SAS, STATA, dan R yang disebut beberapa imputasi melalui persamaan berantai di mana kumpulan data "selesai" (kumpulan data dengan nilai imputasi yang diperlakukan sebagai tetap dan non-acak) dihasilkan, model parameter diestimasi dari setiap dataset lengkap, dan estimasi parameter dan kesalahan standarnya digabungkan menggunakan formasi matematika yang benar (detail dalam makalah Van Buuren).
Perbedaan kecil antara proses dalam MI dan proses yang Anda jelaskan adalah bahwa Anda belum memperhitungkan fakta bahwa memperkirakan distribusi kondisional dari hasil menggunakan data yang dimasukkan akan tergantung pada urutan mana Anda menentukan faktor-faktor tertentu. Anda seharusnya memperkirakan distribusi kondisional dari pengkondisian kovariat yang hilang pada hasil dalam MI, jika tidak, Anda akan mendapatkan estimasi parameter yang bias.
sumber