Saya memiliki dataset yang melihat aplikasi imigrasi dan penerimaan visa (pemberian visa). Tarif dihitung untuk aplikasi visa yang "diterima" dan "ditolak".
Namun, dataset juga memiliki nilai untuk kasus yang ditutup. Biasanya ini adalah ketika imigran berhenti muncul untuk janji, bermigrasi ke tempat lain, atau meninggal. Karena angka-angka ini tidak digunakan ketika tarif dihitung, tarif sering muncul sebagai hilang (karena kasus tidak diterima atau ditolak).
Yang sedang berkata, jika satu-satunya kasus untuk tahun itu adalah "jika tidak ditutup," akankah tidak apa-apa untuk menghentikan pengamatan ini? Bagian dari masalah yang saya alami adalah bahwa tahun acak dalam dataset akan dihapus, karena satu-satunya keputusan untuk tahun itu ditutup.
Kasus-kasus yang ditutup sangat sewenang-wenang, dan seperti yang saya sebutkan, kemungkinan besar adalah kasus di mana imigran bermigrasi ke tempat lain, dan mungkin hanya menggunakan negara pertama sebagai tempat transit sementara. Data tidak secara spesifik mengatakan mengapa para imigran pergi, mengapa mereka ditutup, dll. Saya tidak begitu yakin bagaimana menangani nilai-nilai yang hilang ini. Saya tidak percaya bahwa metode imputasi standar akan bekerja di sini, karena perhitungan laju (tapi saya bisa saja salah).
sumber
Jawaban:
Perbedaan penting adalah dalam kasus Anda bukan perbedaan antara MCAR, MAR, dan NMAR, tetapi antara nilai hilang nyata dan nilai hilang mekanik. Nilai yang hilang sebenarnya adalah nilai yang ada, tetapi untuk beberapa alasan tidak dicatat. Nilai-nilai yang hilang secara mekanis tidak ada, tetapi struktur persegi panjang dari suatu dataset memaksa kami untuk memberikannya nilai, misalnya status kehamilan jika dataset Anda juga mencakup laki-laki. Teknik imputasi dirancang untuk nilai-nilai yang hilang. Contoh Anda adalah kasus nilai yang hilang secara mekanis; keputusan belum dibuat, sehingga nilainya tidak ada. Jika sebagian besar migran pindah maka itu adalah fitur penting dari proses migrasi, dan memasukkan nilai-nilai tersebut menyembunyikan fitur itu.
sumber
Jelas campuran setidaknya 2 proses penghilangan yang berbeda.
Apa yang harus dilakukan tentang MNAR sulit. Anggaplah kasus-kasus semacam itu tidak berhasil mungkin agak ekstrem (atau sangat tepat, bagaimanapun juga mereka tidak berhasil). Atau impute di bawah MAR dan lihat membuat case ini kurang berhasil sampai Anda mencapai 0% dan merenungkan rentang nilai itu.
sumber