Dalam studi longitudinal, haruskah saya menyalahkan hasil Y, diukur pada waktu 2, untuk individu yang mangkir?

10

Saya memiliki tindakan berulang pada 2 kali poin dalam sampel orang. Ada 18k orang pada waktu 1, dan 13k pada waktu 2 (5000 mangkir).

Saya ingin mundur hasil Y diukur pada waktu 2 (dan hasilnya tidak dapat diukur pada waktu 1) pada set prediktor X diukur pada waktu 1. Semua variabel memiliki beberapa data yang hilang. Sebagian besar tampaknya relatif acak, atau hilangnya tampaknya dijelaskan dengan baik oleh data yang diamati. Namun, sebagian besar dari hilangnya dalam hasil Y adalah karena mangkir. Saya akan menggunakan beberapa imputasi (R :: mice), dan akan menggunakan dataset lengkap untuk menentukan nilai untuk X, tetapi saya telah menerima 2 buah saran yang saling bertentangan mengenai imputasi Y:

1) Impute Y dari X dan V (V = variabel tambahan yang berguna) dalam sampel lengkap 18k.

2) Jangan menyalahkan Y dalam individu yang hilang untuk ditindaklanjuti (dan dengan demikian menjatuhkan mereka dari model regresi berikutnya).

Yang pertama masuk akal karena informasi adalah informasi, jadi mengapa tidak menggunakan semuanya; Tapi yang terakhir masuk akal, dengan cara yang lebih intuitif - sepertinya salah untuk menyalahkan hasil untuk 5000 orang berdasarkan Y ~ X + V, untuk kemudian berbalik dan memperkirakan Y ~ X.

Mana yang (lebih) benar?

Pertanyaan sebelumnya ini bermanfaat, tetapi tidak secara langsung mengatasi hilangnya karena mangkir (walaupun mungkin jawabannya sama; saya tidak tahu).

Beberapa imputasi untuk variabel hasil

panel-data multiple-imputation DL Dahly
sumber

Ini tampaknya bertentangan dengan saya - dapatkah Anda menjelaskan ?: "Sebagian besar tampaknya relatif acak, atau hilangnya tampaknya dijelaskan dengan baik oleh data yang diamati."

rolando2

1

Beberapa imputasi dan sebagian besar prosedur imputasi lainnya mengharuskan data Anda hilang secara acak (MAR). Penting untuk memahami mekanisme gesekan dalam studi Anda. Saya menduga bahwa dalam studi tindak lanjut Anda, nilai-nilai Anda yang hilang kemungkinan bukan MAR atau MCAR.

StatsStudent

2

Saya pikir ini adalah kasus instrumentasi. Anda ingin X yang hilang, bukan Y yang hilang.

Y~X

Tetapi X sering hilang atau tidak sesuai.

X~Z and Z does not impact Y- except through X.

Maka Anda dapat menjalankan:

 X~Z
 Y~Predicted(X)

Dan memerlukan beberapa penyesuaian untuk kesalahan standar.

Anda juga mungkin ingin melihat prosedur 2 langkah Heckmann jika Anda memiliki banyak gesekan sampel. http://en.wikipedia.org/wiki/Heckman_correction

RegressForward
sumber

2

Saya berpendapat bahwa tidak ada yang paling tepat.

Imputasi umumnya tidak sesuai ketika data bukan MAR atau MCAR dan data jarang terjadi seperti itu. Saat memasukkan nilai Anda , itu mungkin asumsi yang masuk akal, tetapi tentu saja tidak untuk data Anda . $X$ $Y$

Menjatuhkan semua data yang hilang dari data Anda menyebabkan parameter Anda menjadi bias (jika data bukan MCAR, lihat di atas) dan secara signifikan mengurangi ketepatan estimasi Anda. Ini adalah analisis "kasus lengkap" dan tidak disarankan.

Saya sarankan meninjau metode analisis survival di luar sana. Ini adalah metode yang dirancang untuk menganalisis data Anda mengingat bahwa beberapa hasil Anda tidak teramati karena penyensoran. Ada beberapa model yang akan mempertimbangkan ini jika Anda dapat mengidentifikasi pengamatan mana yang disensor. $Y$

Matt Brems
sumber

Dalam studi longitudinal, haruskah saya menyalahkan hasil Y, diukur pada waktu 2, untuk individu yang mangkir?

Jawaban: