Apa keuntungan dari imputasi dibandingkan membangun banyak model dalam regresi?

10

Saya bertanya-tanya apakah seseorang dapat memberikan beberapa wawasan jika mengapa imputasi untuk data yang hilang lebih baik daripada hanya membangun model yang berbeda untuk kasus dengan data yang hilang. Terutama dalam kasus model linier [umum] (saya mungkin bisa melihat dalam kasus-kasus non-linear hal-hal berbeda)

Misalkan kita memiliki model linier dasar:

Y=β1X1+β2X2+β3X3+ϵ

Tetapi kumpulan data kami berisi beberapa catatan dengan hilang. Dalam kumpulan data prediksi tempat model akan digunakan, juga akan ada kasus yang hilang X 3 . Tampaknya ada dua cara untuk melanjutkan:X3X3

Beberapa model

Kami dapat membagi data menjadi dan non- X 3 case dan membangun model terpisah untuk masing-masing. Jika kita menganggap bahwa X 3 terkait erat dengan X 2 maka model data yang hilang dapat kelebihan berat X 2 untuk mendapatkan prediksi dua prediktor terbaik. Juga jika kasus data yang hilang sedikit berbeda (karena mekanisme data yang hilang) maka dapat memasukkan perbedaan itu. Di sisi bawah, kedua model hanya cocok pada sebagian data masing-masing, dan tidak "saling membantu", sehingga kecocokannya mungkin buruk pada kumpulan data yang terbatas.X3X3X3X2X2

Tuduhan

Regutasi beberapa imputasi pertama-tama akan mengisi dengan membangun model berdasarkan X 1 dan X 2 dan kemudian secara acak pengambilan sampel untuk menjaga kebisingan dalam data yang dimasukkan. Karena ini adalah dua model lagi, bukankah ini hanya akan menjadi sama dengan metode beberapa model di atas? Jika mampu mengungguli - dari mana keuntungan itu berasal? Apakah hanya itu cocok untuk X 1X3X1X2X1 dilakukan pada seluruh set?

EDIT:

Sementara jawaban Steffan sejauh ini menjelaskan bahwa pemasangan model kasus lengkap pada data imputasi akan mengungguli pemasangan data lengkap, dan tampaknya jelas kebalikannya benar, masih ada beberapa kesalahpahaman tentang perkiraan data yang hilang.

Jika saya memiliki model di atas, bahkan pas dengan sempurna, secara umum akan menjadi model peramalan yang mengerikan jika saya hanya meletakkan nol ketika memprediksi. Bayangkan, misalnya, bahwa maka X 2X2=X3+ηX2 sama sekali tidak berguna ( ) ketika X 3 hadir, tetapi masih akan berguna jika tidak ada X 3 .β2=0X3X3

Pertanyaan kunci yang saya tidak mengerti adalah: apakah lebih baik untuk membangun dua model, satu menggunakan dan satu menggunakan ( X 1 , X 2 , X 3 ) , atau lebih baik membangun satu ( penuh) memodelkan dan menggunakan imputasi pada dataset perkiraan - atau apakah ini hal yang sama?(X1,X2)(X1,X2,X3)

Membawa dalam jawaban Steffan, itu akan muncul bahwa lebih baik untuk membangun model kasus lengkap pada set pelatihan diperhitungkan, dan sebaliknya itu mungkin terbaik untuk membangun model data yang hilang pada set data penuh dengan dibuang. Apakah langkah kedua ini berbeda dari menggunakan model imputasi dalam data perkiraan?X3

Korone
sumber

Jawaban:

4

Saya pikir kuncinya di sini adalah memahami mekanisme data yang hilang; atau setidaknya mengesampingkan beberapa. Membangun model terpisah mirip dengan memperlakukan kelompok yang hilang dan tidak hilang sebagai sampel acak. Jika hilangnya X3 terkait dengan X1 atau X2 atau variabel tidak teramati lainnya, maka perkiraan Anda kemungkinan akan bias dalam masing-masing model. Mengapa tidak menggunakan beberapa imputasi pada set data pengembangan dan menggunakan koefisien gabungan pada set prediksi multiply imputed? Rata-rata di seluruh prediksi dan Anda harus baik.

Penelitian yang Andal
sumber
Tetapi jika ketiadaan terkait dengan X1 atau X2 maka pasti baik untuk memiliki dua model terpisah - karena mereka akan memasukkan informasi itu. Artinya, ketika di masa depan saya mendapatkan X3 yang hilang saya akan tahu untuk menjadi bias ke arah yang benar.
Korone
3

Saya berasumsi bahwa Anda tertarik untuk memperoleh estimasi koefisien regresi yang tidak bias. Analisis dari semua kasus menghasilkan estimasi yang tidak bias dari koefisien regresi yang Anda sediakan probabilitas bahwa X3 hilang tidak tergantung pada Y. Ini berlaku bahkan jika probabilitas hilangnya tergantung pada X1 atau X2, dan untuk semua jenis analisis regresi.

Tentu saja, perkiraannya mungkin tidak efisien jika proporsi kasus lengkap kecil. Dalam hal ini Anda bisa menggunakan beberapa imputasi X3 yang diberikan X2, X1 dan Y untuk meningkatkan presisi. Lihat White dan Carlin (2010) Stat Med untuk detailnya.

Stef van Buuren
sumber
Ah, jadi apakah tuduhan semua tentang mendapatkan koefisien yang benar? Koefisien itu sendiri tidak menarik bagi saya - Saya hanya ingin memaksimalkan kekuatan prediktif saya pada data baru (yang mungkin juga memiliki ketiadaan)
Korone
1
Tidak apa-apa. Untuk mencapai daya prediksi maksimal, Anda juga menginginkan perkiraan koefisien model yang tepat dan tidak bias.
Stef van Buuren
Jika saya hanya menggunakan case lengkap, maka saya tidak dapat menggunakan model itu untuk prediksi ketika saya kehilangan data, karena koefisien umumnya akan salah (misalnya jika ada korelasi antara X2 dan X3). Karena itu saya harus menyalahkan X3 ketika membuat prediksi atau membangun model kedua hanya dalam X1 & X2. Pertanyaannya adalah apakah ini menghasilkan prediksi yang berbeda dan mana yang lebih baik?
Korone
Ah, saya pikir saya mengerti satu hal yang Anda buat: jika saya cocok dengan model untuk prediksi kasus lengkap menggunakan imputasi maka itu akan meningkatkan perkiraan kasus lengkap, vs cocok hanya dengan kasus bersaing. Pertanyaan yang tersisa adalah apa yang terbaik untuk kasus-kasus yang tidak lengkap?
Korone
Misalkan beta_1 = beta_2 = 0 dan beta_3 = 1. Menggunakan hanya X1 dan X2 akan memprediksi konstanta, sedangkan prediksi menggunakan X3 akan menjelaskan beberapa varian Y, dan karenanya menghasilkan kesalahan residual yang lebih rendah. Dengan demikian, versi imputasi menghasilkan prediksi yang lebih baik.
Stef van Buuren
0

Satu studi dari Harvard menunjukkan beberapa imputasi dengan lima perkiraan data yang hilang (di sini adalah referensi, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Bahkan kemudian, saya ingat komentar bahwa model imputasi mungkin masih tidak menghasilkan interval penutup untuk parameter model yang tidak menyertakan nilai-nilai mendasar yang sebenarnya!

Dengan mengingat hal itu, tampaknya sebaiknya menggunakan lima model naif sederhana untuk nilai yang hilang (dengan asumsi tidak hilang secara acak dalam diskusi saat ini) yang menghasilkan penyebaran nilai yang baik, sehingga interval penutup mungkin, setidaknya, mengandung parameter sebenarnya .

Pengalaman saya dalam teori Sampling adalah bahwa banyak sumber daya sering dihabiskan untuk subsampling populasi non-respons yang, kadang-kadang, tampaknya sangat berbeda dari populasi respons. Dengan demikian, saya akan merekomendasikan latihan serupa dalam regresi nilai yang hilang setidaknya sekali dalam bidang aplikasi tertentu. Hubungan yang belum dipulihkan dalam eksplorasi data yang hilang dapat menjadi nilai historis dalam membangun model perkiraan data hilang yang lebih baik untuk masa depan.

AJKOER
sumber