Saya memiliki tindakan berulang pada 2 kali poin dalam sampel orang. Ada 18k orang pada waktu 1, dan 13k pada waktu 2 (5000 mangkir).
Saya ingin mundur hasil Y diukur pada waktu 2 (dan hasilnya tidak dapat diukur pada waktu 1) pada set prediktor X diukur pada waktu 1. Semua variabel memiliki beberapa data yang hilang. Sebagian besar tampaknya relatif acak, atau hilangnya tampaknya dijelaskan dengan baik oleh data yang diamati. Namun, sebagian besar dari hilangnya dalam hasil Y adalah karena mangkir. Saya akan menggunakan beberapa imputasi (R :: mice), dan akan menggunakan dataset lengkap untuk menentukan nilai untuk X, tetapi saya telah menerima 2 buah saran yang saling bertentangan mengenai imputasi Y:
1) Impute Y dari X dan V (V = variabel tambahan yang berguna) dalam sampel lengkap 18k.
2) Jangan menyalahkan Y dalam individu yang hilang untuk ditindaklanjuti (dan dengan demikian menjatuhkan mereka dari model regresi berikutnya).
Yang pertama masuk akal karena informasi adalah informasi, jadi mengapa tidak menggunakan semuanya; Tapi yang terakhir masuk akal, dengan cara yang lebih intuitif - sepertinya salah untuk menyalahkan hasil untuk 5000 orang berdasarkan Y ~ X + V, untuk kemudian berbalik dan memperkirakan Y ~ X.
Mana yang (lebih) benar?
Pertanyaan sebelumnya ini bermanfaat, tetapi tidak secara langsung mengatasi hilangnya karena mangkir (walaupun mungkin jawabannya sama; saya tidak tahu).
sumber
Jawaban:
Saya pikir ini adalah kasus instrumentasi. Anda ingin X yang hilang, bukan Y yang hilang.
Tetapi X sering hilang atau tidak sesuai.
Maka Anda dapat menjalankan:
Dan memerlukan beberapa penyesuaian untuk kesalahan standar.
Anda juga mungkin ingin melihat prosedur 2 langkah Heckmann jika Anda memiliki banyak gesekan sampel. http://en.wikipedia.org/wiki/Heckman_correction
sumber
Saya berpendapat bahwa tidak ada yang paling tepat.
Imputasi umumnya tidak sesuai ketika data bukan MAR atau MCAR dan data jarang terjadi seperti itu. Saat memasukkan nilai Anda , itu mungkin asumsi yang masuk akal, tetapi tentu saja tidak untuk data Anda .X Y
Menjatuhkan semua data yang hilang dari data Anda menyebabkan parameter Anda menjadi bias (jika data bukan MCAR, lihat di atas) dan secara signifikan mengurangi ketepatan estimasi Anda. Ini adalah analisis "kasus lengkap" dan tidak disarankan.
Saya sarankan meninjau metode analisis survival di luar sana. Ini adalah metode yang dirancang untuk menganalisis data Anda mengingat bahwa beberapa hasil Anda tidak teramati karena penyensoran. Ada beberapa model yang akan mempertimbangkan ini jika Anda dapat mengidentifikasi pengamatan mana yang disensor.Y
sumber