Apa keuntungan dari imputasi dibandingkan membangun banyak model dalam regresi?

Saya bertanya-tanya apakah seseorang dapat memberikan beberapa wawasan jika mengapa imputasi untuk data yang hilang lebih baik daripada hanya membangun model yang berbeda untuk kasus dengan data yang hilang. Terutama dalam kasus model linier [umum] (saya mungkin bisa melihat dalam kasus-kasus non-linear hal-hal berbeda)

Misalkan kita memiliki model linier dasar:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Tetapi kumpulan data kami berisi beberapa catatan dengan hilang. Dalam kumpulan data prediksi tempat model akan digunakan, juga akan ada kasus yang hilang . Tampaknya ada dua cara untuk melanjutkan: $X_3$ $X_3$

Beberapa model

Kami dapat membagi data menjadi dan non- case dan membangun model terpisah untuk masing-masing. Jika kita menganggap bahwa terkait erat dengan maka model data yang hilang dapat kelebihan berat untuk mendapatkan prediksi dua prediktor terbaik. Juga jika kasus data yang hilang sedikit berbeda (karena mekanisme data yang hilang) maka dapat memasukkan perbedaan itu. Di sisi bawah, kedua model hanya cocok pada sebagian data masing-masing, dan tidak "saling membantu", sehingga kecocokannya mungkin buruk pada kumpulan data yang terbatas. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

Tuduhan

Regutasi beberapa imputasi pertama-tama akan mengisi dengan membangun model berdasarkan dan dan kemudian secara acak pengambilan sampel untuk menjaga kebisingan dalam data yang dimasukkan. Karena ini adalah dua model lagi, bukankah ini hanya akan menjadi sama dengan metode beberapa model di atas? Jika mampu mengungguli - dari mana keuntungan itu berasal? Apakah hanya itu cocok untuk $X_3$ $X_1$ $X_2$ $X_1$ dilakukan pada seluruh set?

EDIT:

Sementara jawaban Steffan sejauh ini menjelaskan bahwa pemasangan model kasus lengkap pada data imputasi akan mengungguli pemasangan data lengkap, dan tampaknya jelas kebalikannya benar, masih ada beberapa kesalahpahaman tentang perkiraan data yang hilang.

Jika saya memiliki model di atas, bahkan pas dengan sempurna, secara umum akan menjadi model peramalan yang mengerikan jika saya hanya meletakkan nol ketika memprediksi. Bayangkan, misalnya, bahwa maka $X_2 = X_3+\eta$ $X_2$ sama sekali tidak berguna ( ) ketika hadir, tetapi masih akan berguna jika tidak ada . $\beta_2 = 0$ $X_3$ $X_3$

Pertanyaan kunci yang saya tidak mengerti adalah: apakah lebih baik untuk membangun dua model, satu menggunakan dan satu menggunakan , atau lebih baik membangun satu ( penuh) memodelkan dan menggunakan imputasi pada dataset perkiraan - atau apakah ini hal yang sama? $(X_1, X_2)$ $(X_1, X_2, X_3)$

Membawa dalam jawaban Steffan, itu akan muncul bahwa lebih baik untuk membangun model kasus lengkap pada set pelatihan diperhitungkan, dan sebaliknya itu mungkin terbaik untuk membangun model data yang hilang pada set data penuh dengan dibuang. Apakah langkah kedua ini berbeda dari menggunakan model imputasi dalam data perkiraan? $X_3$

regression missing-data data-imputation Korone
sumber

Jawaban:

Saya pikir kuncinya di sini adalah memahami mekanisme data yang hilang; atau setidaknya mengesampingkan beberapa. Membangun model terpisah mirip dengan memperlakukan kelompok yang hilang dan tidak hilang sebagai sampel acak. Jika hilangnya X3 terkait dengan X1 atau X2 atau variabel tidak teramati lainnya, maka perkiraan Anda kemungkinan akan bias dalam masing-masing model. Mengapa tidak menggunakan beberapa imputasi pada set data pengembangan dan menggunakan koefisien gabungan pada set prediksi multiply imputed? Rata-rata di seluruh prediksi dan Anda harus baik.

Penelitian yang Andal
sumber

Tetapi jika ketiadaan terkait dengan X1 atau X2 maka pasti baik untuk memiliki dua model terpisah - karena mereka akan memasukkan informasi itu. Artinya, ketika di masa depan saya mendapatkan X3 yang hilang saya akan tahu untuk menjadi bias ke arah yang benar.

Korone

Saya berasumsi bahwa Anda tertarik untuk memperoleh estimasi koefisien regresi yang tidak bias. Analisis dari semua kasus menghasilkan estimasi yang tidak bias dari koefisien regresi yang Anda sediakan probabilitas bahwa X3 hilang tidak tergantung pada Y. Ini berlaku bahkan jika probabilitas hilangnya tergantung pada X1 atau X2, dan untuk semua jenis analisis regresi.

Tentu saja, perkiraannya mungkin tidak efisien jika proporsi kasus lengkap kecil. Dalam hal ini Anda bisa menggunakan beberapa imputasi X3 yang diberikan X2, X1 dan Y untuk meningkatkan presisi. Lihat White dan Carlin (2010) Stat Med untuk detailnya.

Stef van Buuren
sumber

Ah, jadi apakah tuduhan semua tentang mendapatkan koefisien yang benar? Koefisien itu sendiri tidak menarik bagi saya - Saya hanya ingin memaksimalkan kekuatan prediktif saya pada data baru (yang mungkin juga memiliki ketiadaan)

Korone

Tidak apa-apa. Untuk mencapai daya prediksi maksimal, Anda juga menginginkan perkiraan koefisien model yang tepat dan tidak bias.

Stef van Buuren

Jika saya hanya menggunakan case lengkap, maka saya tidak dapat menggunakan model itu untuk prediksi ketika saya kehilangan data, karena koefisien umumnya akan salah (misalnya jika ada korelasi antara X2 dan X3). Karena itu saya harus menyalahkan X3 ketika membuat prediksi atau membangun model kedua hanya dalam X1 & X2. Pertanyaannya adalah apakah ini menghasilkan prediksi yang berbeda dan mana yang lebih baik?

Korone

Ah, saya pikir saya mengerti satu hal yang Anda buat: jika saya cocok dengan model untuk prediksi kasus lengkap menggunakan imputasi maka itu akan meningkatkan perkiraan kasus lengkap, vs cocok hanya dengan kasus bersaing. Pertanyaan yang tersisa adalah apa yang terbaik untuk kasus-kasus yang tidak lengkap?

Korone

Misalkan beta_1 = beta_2 = 0 dan beta_3 = 1. Menggunakan hanya X1 dan X2 akan memprediksi konstanta, sedangkan prediksi menggunakan X3 akan menjelaskan beberapa varian Y, dan karenanya menghasilkan kesalahan residual yang lebih rendah. Dengan demikian, versi imputasi menghasilkan prediksi yang lebih baik.

Stef van Buuren

Satu studi dari Harvard menunjukkan beberapa imputasi dengan lima perkiraan data yang hilang (di sini adalah referensi, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Bahkan kemudian, saya ingat komentar bahwa model imputasi mungkin masih tidak menghasilkan interval penutup untuk parameter model yang tidak menyertakan nilai-nilai mendasar yang sebenarnya!

Dengan mengingat hal itu, tampaknya sebaiknya menggunakan lima model naif sederhana untuk nilai yang hilang (dengan asumsi tidak hilang secara acak dalam diskusi saat ini) yang menghasilkan penyebaran nilai yang baik, sehingga interval penutup mungkin, setidaknya, mengandung parameter sebenarnya .

Pengalaman saya dalam teori Sampling adalah bahwa banyak sumber daya sering dihabiskan untuk subsampling populasi non-respons yang, kadang-kadang, tampaknya sangat berbeda dari populasi respons. Dengan demikian, saya akan merekomendasikan latihan serupa dalam regresi nilai yang hilang setidaknya sekali dalam bidang aplikasi tertentu. Hubungan yang belum dipulihkan dalam eksplorasi data yang hilang dapat menjadi nilai historis dalam membangun model perkiraan data hilang yang lebih baik untuk masa depan.

AJKOER
sumber