Imputasi untuk memperhitungkan kesalahan sistematis dalam respons survei

Saya memiliki survei besar di mana para siswa ditanyai, antara lain, tingkat pendidikan ibu mereka. Beberapa melewatkannya, dan beberapa menjawab dengan salah. Saya tahu ini, karena ada sub-sampel dari ibu responden awal yang kemudian diwawancarai, dan mengajukan pertanyaan yang sama. (Saya yakin ada beberapa, jumlah yang lebih kecil, kesalahan yang terkait dengan tanggapan ibu juga.)

Tantangan saya, adalah memutuskan bagaimana cara terbaik memanfaatkan sumber data yang kedua dan lebih andal ini. Paling tidak saya bisa menggunakannya untuk menyalahkan data yang hilang lebih cerdas daripada yang saya bisa jika saya hanya bisa mengandalkan kasus lengkap. Tetapi jika 3/4 dari anak-anak yang datanya dapat saya periksa silang, yang menjawab "Ibu saya tidak pernah tamat sekolah dasar" bertentangan dengan jawaban ibu mereka, maka sepertinya saya harus menggunakan imputasi untuk membuat beberapa dataset untuk menangkap ketidakpastian di sana. [menambahkan: Saya katakan 3/4 untuk menegaskan, tetapi sekarang saya telah memeriksa data, saya mungkin juga memberi tahu Anda bahwa mendekati 40% tidak sesuai]

Saya pribadi akan menggunakan pendidikan ibu sebagai prediktor dalam model campuran, tetapi jika ada yang punya sesuatu untuk dikatakan tentang situasi lain saya akan senang belajar tentang mereka juga.

Saya akan senang menerima saran dalam siaran berskala besar atau khusus. Terima kasih!

Pembaruan : Saya meninggalkan pertanyaan yang belum terpecahkan untuk saat ini, meskipun saya menghargai tanggapan Will dan Conjugate_Prior, saya mengulurkan harapan untuk umpan balik yang lebih spesifik dan teknis.

Scatterplot di bawah ini akan memberi Anda gambaran tentang bagaimana kedua variabel terkait dalam 10.000 kasus di mana keduanya ada. Mereka bersarang di lebih dari 100 sekolah. Mereka berkorelasi pada 0,78, Jawaban Pelajar- rata-rata: 5,12 sd = 2,05, jawaban Mom, rata-rata = 5,02, sd = 1,92 Jawaban siswa hilang pada sekitar 15% kasus.

masukkan deskripsi gambar di sini

data-imputation Michael Bishop
sumber

Karena penasaran, apakah opsi jawaban pertama untuk pertanyaan pendidikan itu "Ibuku tidak pernah menyelesaikan sekolah dasar"? Jika demikian, saya akan khawatir tentang keakuratan sisa hasil tes Anda untuk peserta tes tersebut.

Michelle

"Seberapa jauh dia bersekolah?" - 1) Kelas delapan atau kurang

Michael Bishop

Anda mungkin memiliki subset peserta tes yang menandai opsi jawaban pertama untuk setiap pertanyaan. Bisakah Anda memeriksanya?

Michelle

Plot itu sangat mendalam. Itu terlihat cukup simetris yang bukan apa yang Anda harapkan jika sebenarnya sekelompok anak baru saja menandai jawaban pertama. Jika itu yang terjadi maka kasing akan cenderung mengelompok di sepanjang baris paling bawah. Tentu saja 'tampak' simetris sebenarnya tidak menjamin itu tapi ini awal yang baik. Korelasi kuat yang Anda amati antara respons ibu dan anak juga konsisten dengan ini.

Will

Ahh. Saya melihat. Maka saya juga akan (lebih dari sedikit) enggan untuk menyalahkan data yang ada dan akan merekomendasikan itu tidak dilakukan sama sekali, meskipun argumen semacam ini: gking.harvard.edu/gking/files/measure.pdf

conjugateprior

Jawaban:

Hal pertama yang perlu diperhatikan adalah variabel Anda adalah: "apa yang dikatakan siswa tentang pendidikan ibu" dan "apa yang dikatakan ibu siswa tentang pendidikan ibu siswa". Sebut masing-masing S dan M, dan beri label tingkat pendidikan ibu yang sebenarnya tidak teramati sebagai T.

S dan M keduanya memiliki nilai yang hilang dan tidak ada yang salah (modulo pengamatan di bawah ini) dengan menempatkan M dan S dalam model imputasi tetapi hanya menggunakan salah satu dari mereka dalam analisis selanjutnya. Sebaliknya, selalu tidak disarankan.

Ini terpisah dari tiga pertanyaan lain:

Apakah nilai yang hilang berarti siswa tidak tahu atau tidak ingin mengatakan banyak tentang ibu mereka?
Bagaimana cara menggunakan S dan M untuk belajar tentang T?
Apakah Anda memiliki jenis ketidakhadiran yang tepat untuk memungkinkan beberapa imputasi bekerja?

Ketidaktahuan dan ketiadaan

Anda mungkin tertarik pada T, tetapi Anda tidak perlu: persepsi tentang pencapaian pendidikan (melalui S, dan mungkin M) atau kurangnya pengetahuan siswa mungkin lebih menarik daripada T itu sendiri. Imputasi mungkin merupakan rute yang masuk akal untuk yang pertama, tetapi mungkin atau mungkin tidak untuk yang kedua. Anda harus memutuskan.

Belajar tentang T

Katakanlah Anda benar-benar tertarik pada T. Dengan tidak adanya pengukuran standar emas (karena Anda terkadang meragukan M) sulit untuk mengetahui bagaimana Anda secara non-arbitraily menggabungkan S dan M untuk belajar tentang T. Jika, di sisi lain, Anda bersedia untuk memperlakukan M sebagai benar ketika tersedia, maka Anda dapat menggunakan S untuk memprediksi M dalam model klasifikasi yang berisi informasi lain dari siswa dan kemudian menggunakan M daripada S dalam analisis akhir. Kekhawatiran di sini adalah tentang bias seleksi dalam kasus-kasus yang Anda latih, yang mengarah ke masalah ketiga:

Ketinggalan

Apakah beberapa imputasi dapat bekerja tergantung pada apakah data hilang sepenuhnya secara acak (MCAR) atau hilang secara acak (MAR). Apakah S hilang secara acak (MAR)? Mungkin tidak, karena siswa mungkin malu untuk menjawab tentang kurangnya pendidikan ibu mereka dan melewatkan pertanyaan. Maka nilai sendiri menentukan apakah akan hilang dan beberapa imputasi tidak dapat membantu di sini. Di sisi lain, jika KETERKAITANNYA pendidikan rendah dengan sesuatu yang sudah diminta dan sebagian menjawab dalam survei misalnya beberapa indikator pendapatan, maka MAR mungkin lebih masuk akal dan beberapa imputasi memiliki sesuatu untuk mendapatkan pegangan pada. Apakah M hilang secara acak? Pertimbangan yang sama berlaku.

Akhirnya, bahkan jika Anda tertarik pada T dan mengambil pendekatan klasifikasi, Anda masih ingin menyalahkan agar sesuai dengan model itu.

conjugateprior
sumber

Jika Anda akan berasumsi bahwa "tingkat kontradiksi" adalah sama untuk seluruh sampel sebagaimana untuk subsampel yang ibunya disurvei maka subsampel tersebut harus diambil secara acak. Dalam uraian Anda, Anda tidak mengatakannya, jadi saya mengangkat masalah ini karena saya pikir ini memiliki implikasi penting untuk bagaimana atau jika Anda dapat menggunakan informasi ini dari subsampel untuk menarik kesimpulan tentang seluruh sampel siswa.

Tampaknya bagi saya ada tiga sisi dari masalah kontradiksi ini.

1 adalah tingkat kontradiksi. Apakah benar-benar kasus yang diduga salah 3 dari siswa?

2 adalah tingkat kesalahan - itu salah satu hal untuk mengatakan ibumu tidak pernah menyelesaikan sekolah dasar ketika dia benar-benar menyelesaikannya tetapi berhenti di sana dan cukup lain untuk mengatakan dia tidak pernah menyelesaikan sekolah dasar ketika dia memiliki gelar Ph.D.

3 adalah proporsi sampel yang dapat Anda periksa silang. Jika Anda menggambar kesimpulan ini pada subsampel 20 maka saya berani bertaruh estimasi ini cukup tidak stabil dan mungkin tidak terlalu berharga.

Tampak bagi saya bahwa apa yang Anda lakukan akan tergantung pada jawaban Anda untuk pertanyaan-pertanyaan ini dan untuk pertanyaan yang saya ajukan pada awalnya. Sebagai contoh, jika 1 cukup tinggi dan 3 cukup tinggi maka saya mungkin hanya menggunakan subsampel dan selesai dengan itu. Jika 1 tinggi tetapi 2 rendah maka masalahnya tampaknya tidak terlalu buruk dan, sekali lagi, mungkin tidak layak untuk diganggu.

Mungkin juga perlu diketahui jika kesalahannya acak atau sistematis. Jika siswa cenderung secara sistematis memperkirakan pendidikan ibu mereka maka itu lebih bermasalah daripada jika mereka kadang-kadang salah total.

Saya telah melakukan beberapa imputasi pada beberapa makalah dan sepertinya saya selalu membuat lebih banyak masalah untuk diri saya sendiri sebagai hasilnya. Reviewer, setidaknya di daerah saya, sering tidak memiliki pegangan yang baik pada metode ini dan karenanya curiga terhadap penggunaannya. Saya merasa kadang-kadang lebih baik, dari sudut pandang publikasi, untuk hanya mengakui masalah dan melanjutkan. Tetapi dalam kasus ini Anda tidak benar-benar 'memasukkan data yang hilang' tetapi memperkenalkan semacam varians kesalahan yang diprediksi untuk variabel. Ini adalah pertanyaan yang sangat menarik dan, mengesampingkan semua kekhawatiran, saya bahkan tidak yakin bagaimana saya akan melakukan ini jika saya memutuskan itu adalah tindakan terbaik

Akan
sumber

Terima kasih Will, saya mengklarifikasi beberapa hal dalam posting asli saya. Sub-sampel adalah acak. Saya menarik stat 3/4 dari topi untuk membuat poin. Stat sebenarnya kurang. Saya dapat memeriksa sekitar 10.000 kasus. Saya yakin kesalahannya tidak sepenuhnya acak.

Michael Bishop