Memperlakukan level 'Tidak tahu / Menolak' dari variabel kategori
9
Saya memodelkan Prediksi Diabetes menggunakan Regresi Logistik. Dataset yang digunakan adalah Sistem Pengawasan Faktor Risiko Perilaku (BRFSS) dari Center for Disease Control (CDC). Salah satu variabel independen adalah Tekanan Darah Tinggi. Ini adalah kategori dengan level berikut 'Ya', 'Tidak', 'Tidak tahu / Ditolak'. Haruskah saya menghapus baris dengan 'Tidak tahu / Menolak' saat membangun model? Apa bedanya untuk menjaga atau menghapus baris-baris itu dari model?
Saya hanya bertanya-tanya tentang pertanyaan yang persis sama ketika menganalisis data National Hospital Discharge Survey terbaru . Beberapa variabel memiliki nilai hilang yang substansial, seperti status perkawinan dan jenis prosedur. Masalah ini menjadi perhatian saya karena kategori ini muncul dengan efek yang kuat (dan signifikan) di sebagian besar analisis regresi logistik yang saya jalankan.
Seseorang cenderung bertanya - tanya mengapakode yang hilang diberikan. Dalam kasus status perkawinan, misalnya, masuk akal bahwa kegagalan untuk memberikan informasi ini dapat dikaitkan dengan faktor-faktor penting seperti status sosial ekonomi atau jenis penyakit. Dalam kasus tekanan darah tinggi Anda, kami harus bertanya mengapa nilainya tidak diketahui atau ditolak? Ini bisa terkait dengan praktik di lembaga (mungkin mencerminkan prosedur yang lemah) atau bahkan dengan individu (seperti keyakinan agama). Karakteristik tersebut pada gilirannya dapat dikaitkan dengan diabetes. Oleh karena itu, tampaknya lebih bijaksana untuk melanjutkan seperti yang Anda miliki, daripada mengkode nilai-nilai ini sebagai hilang (dengan demikian mengecualikan mereka dari analisis sama sekali) atau mencoba untuk menyalahkan nilai-nilai (yang secara efektif menutupi informasi yang mereka berikan dan dapat membiaskan hasilnya). Ini benar-benar tidak lagi sulit untuk dilakukan: Anda hanya perlu memastikan variabel ini diperlakukan sebagai kategori dan Anda akan mendapatkan satu koefisien lagi dalam hasil regresi. Selain itu, saya menduga dataset BRFSS cukup besar sehingga Anda tidak perlu khawatir tentang kekuatan.
Juga, DK dapat memiliki makna nyata, yaitu individu-individu itu tidak sadar akan kesehatan dan bisa berisiko.
Brandon Bertelsen
2
Pertama, Anda harus memikirkan apakah data yang hilang benar-benar hilang secara acak (MCAR), hilang secara acak (MAR) atau tidak hilang secara acak (MNAR) sebagai penghapusan (dengan kata lain analisis kasus lengkap) dapat menyebabkan hasil yang bias. Alternatifnya adalah pembobotan probabilitas terbalik, imputasi berganda, metode kemungkinan penuh dan metode kuat ganda. Beberapa imputasi dengan persamaan dirantai (MICE) jika sering cara termudah untuk pergi.
Terima kasih. Ini adalah Data Survei dan saya tidak yakin apakah itu MAR atau MNAR. Untuk Eg., Ada variabel yang mengatakan 1) "apakah seseorang menderita Diabetes atau tidak?" dan variabel lain (2) Apakah dia mengonsumsi Insulin? Saya melihat bahwa variabel (2) memiliki entri hanya ketika variabel (1) adalah 'Ya' (yaitu seseorang menderita diabetes). Sebaliknya (2) kosong. Selain itu (2) memiliki 'ya', 'Tidak', 'Tidak tahu / Ditolak' sebagai tanggapan untuk kasus diabetes. Jadi, bagaimana saya memperlakukan sel-sel kosong dan tanggapan survei 'Tidak tahu / Ditolak'?
user3897
Saya ingin belajar tentang beberapa imputasi dan sedang mencari materi pembelajaran online. Bisakah Anda menyarankan beberapa materi pembelajaran untuk MI?
user3897
0
Apakah Anda punya alasan untuk berpikir bahwa subyek penelitian dengan diabetes lebih mungkin atau kurang mungkin berakhir dengan respons DK / R? Jika tidak (dan saya akan sangat terkejut mengetahui Anda melakukannya), termasuk prediktor ini dalam model w / o tidak termasuk kasus ini akan menghasilkan suara berisik. Artinya, Anda akan berakhir dengan kurang presisi dalam penilaian Anda tentang bagaimana "ya" vs "tidak" memengaruhi estimasi kemungkinan diabetes (karena Anda akan mencoba memodelkan pengaruh baik "ya" atau "tidak" vs. tanggapan DK / R acak sebagai lawan dari "ya" vs. "tidak"). Opsi yang paling mudah adalah dengan mengecualikan kasus dengan tanggapan DK / R. Dengan asumsi bahwa tanggapan "ya / tidak" mereka memang hilang secara acak, tidak termasuk mereka tidak akan membiaskan perkiraan Anda tentang pengaruh "ya" vs. "tidak." Pendekatan itu, bagaimanapun, akan mengurangi ukuran sampel Anda dan dengan demikian mengurangi kekuatan statistik sehubungan dengan prediktor yang tersisa. Jika Anda memiliki banyak DK / R pada variabel ini, Anda mungkin ingin menyalahkan respons "ya" / "tidak" dengan beberapa imputasi (bisa dibilang sebagai strategi imputasi nilai hilang yang paling mungkin dipertahankan).
Pertama, Anda harus memikirkan apakah data yang hilang benar-benar hilang secara acak (MCAR), hilang secara acak (MAR) atau tidak hilang secara acak (MNAR) sebagai penghapusan (dengan kata lain analisis kasus lengkap) dapat menyebabkan hasil yang bias. Alternatifnya adalah pembobotan probabilitas terbalik, imputasi berganda, metode kemungkinan penuh dan metode kuat ganda. Beberapa imputasi dengan persamaan dirantai (MICE) jika sering cara termudah untuk pergi.
sumber
Apakah Anda punya alasan untuk berpikir bahwa subyek penelitian dengan diabetes lebih mungkin atau kurang mungkin berakhir dengan respons DK / R? Jika tidak (dan saya akan sangat terkejut mengetahui Anda melakukannya), termasuk prediktor ini dalam model w / o tidak termasuk kasus ini akan menghasilkan suara berisik. Artinya, Anda akan berakhir dengan kurang presisi dalam penilaian Anda tentang bagaimana "ya" vs "tidak" memengaruhi estimasi kemungkinan diabetes (karena Anda akan mencoba memodelkan pengaruh baik "ya" atau "tidak" vs. tanggapan DK / R acak sebagai lawan dari "ya" vs. "tidak"). Opsi yang paling mudah adalah dengan mengecualikan kasus dengan tanggapan DK / R. Dengan asumsi bahwa tanggapan "ya / tidak" mereka memang hilang secara acak, tidak termasuk mereka tidak akan membiaskan perkiraan Anda tentang pengaruh "ya" vs. "tidak." Pendekatan itu, bagaimanapun, akan mengurangi ukuran sampel Anda dan dengan demikian mengurangi kekuatan statistik sehubungan dengan prediktor yang tersisa. Jika Anda memiliki banyak DK / R pada variabel ini, Anda mungkin ingin menyalahkan respons "ya" / "tidak" dengan beberapa imputasi (bisa dibilang sebagai strategi imputasi nilai hilang yang paling mungkin dipertahankan).
sumber