Saya bertanya-tanya apakah seseorang dapat memberikan beberapa wawasan jika mengapa imputasi untuk data yang hilang lebih baik daripada hanya membangun model yang berbeda untuk kasus dengan data yang hilang. Terutama dalam kasus model linier [umum] (saya mungkin bisa melihat dalam kasus-kasus non-linear hal-hal berbeda)
Misalkan kita memiliki model linier dasar:
Tetapi kumpulan data kami berisi beberapa catatan dengan hilang. Dalam kumpulan data prediksi tempat model akan digunakan, juga akan ada kasus yang hilang X 3 . Tampaknya ada dua cara untuk melanjutkan:
Beberapa model
Kami dapat membagi data menjadi dan non- X 3 case dan membangun model terpisah untuk masing-masing. Jika kita menganggap bahwa X 3 terkait erat dengan X 2 maka model data yang hilang dapat kelebihan berat X 2 untuk mendapatkan prediksi dua prediktor terbaik. Juga jika kasus data yang hilang sedikit berbeda (karena mekanisme data yang hilang) maka dapat memasukkan perbedaan itu. Di sisi bawah, kedua model hanya cocok pada sebagian data masing-masing, dan tidak "saling membantu", sehingga kecocokannya mungkin buruk pada kumpulan data yang terbatas.
Tuduhan
Regutasi beberapa imputasi pertama-tama akan mengisi dengan membangun model berdasarkan X 1 dan X 2 dan kemudian secara acak pengambilan sampel untuk menjaga kebisingan dalam data yang dimasukkan. Karena ini adalah dua model lagi, bukankah ini hanya akan menjadi sama dengan metode beberapa model di atas? Jika mampu mengungguli - dari mana keuntungan itu berasal? Apakah hanya itu cocok untuk X 1 dilakukan pada seluruh set?
EDIT:
Sementara jawaban Steffan sejauh ini menjelaskan bahwa pemasangan model kasus lengkap pada data imputasi akan mengungguli pemasangan data lengkap, dan tampaknya jelas kebalikannya benar, masih ada beberapa kesalahpahaman tentang perkiraan data yang hilang.
Jika saya memiliki model di atas, bahkan pas dengan sempurna, secara umum akan menjadi model peramalan yang mengerikan jika saya hanya meletakkan nol ketika memprediksi. Bayangkan, misalnya, bahwa maka X 2 sama sekali tidak berguna ( ) ketika X 3 hadir, tetapi masih akan berguna jika tidak ada X 3 .
Pertanyaan kunci yang saya tidak mengerti adalah: apakah lebih baik untuk membangun dua model, satu menggunakan dan satu menggunakan ( X 1 , X 2 , X 3 ) , atau lebih baik membangun satu ( penuh) memodelkan dan menggunakan imputasi pada dataset perkiraan - atau apakah ini hal yang sama?
Membawa dalam jawaban Steffan, itu akan muncul bahwa lebih baik untuk membangun model kasus lengkap pada set pelatihan diperhitungkan, dan sebaliknya itu mungkin terbaik untuk membangun model data yang hilang pada set data penuh dengan dibuang. Apakah langkah kedua ini berbeda dari menggunakan model imputasi dalam data perkiraan?
Saya berasumsi bahwa Anda tertarik untuk memperoleh estimasi koefisien regresi yang tidak bias. Analisis dari semua kasus menghasilkan estimasi yang tidak bias dari koefisien regresi yang Anda sediakan probabilitas bahwa X3 hilang tidak tergantung pada Y. Ini berlaku bahkan jika probabilitas hilangnya tergantung pada X1 atau X2, dan untuk semua jenis analisis regresi.
Tentu saja, perkiraannya mungkin tidak efisien jika proporsi kasus lengkap kecil. Dalam hal ini Anda bisa menggunakan beberapa imputasi X3 yang diberikan X2, X1 dan Y untuk meningkatkan presisi. Lihat White dan Carlin (2010) Stat Med untuk detailnya.
sumber
Satu studi dari Harvard menunjukkan beberapa imputasi dengan lima perkiraan data yang hilang (di sini adalah referensi, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Bahkan kemudian, saya ingat komentar bahwa model imputasi mungkin masih tidak menghasilkan interval penutup untuk parameter model yang tidak menyertakan nilai-nilai mendasar yang sebenarnya!
Dengan mengingat hal itu, tampaknya sebaiknya menggunakan lima model naif sederhana untuk nilai yang hilang (dengan asumsi tidak hilang secara acak dalam diskusi saat ini) yang menghasilkan penyebaran nilai yang baik, sehingga interval penutup mungkin, setidaknya, mengandung parameter sebenarnya .
Pengalaman saya dalam teori Sampling adalah bahwa banyak sumber daya sering dihabiskan untuk subsampling populasi non-respons yang, kadang-kadang, tampaknya sangat berbeda dari populasi respons. Dengan demikian, saya akan merekomendasikan latihan serupa dalam regresi nilai yang hilang setidaknya sekali dalam bidang aplikasi tertentu. Hubungan yang belum dipulihkan dalam eksplorasi data yang hilang dapat menjadi nilai historis dalam membangun model perkiraan data hilang yang lebih baik untuk masa depan.
sumber