Apakah saya tetap bisa meninggalkan pengamatan yang hilang?

8

Saya memiliki dataset yang melihat aplikasi imigrasi dan penerimaan visa (pemberian visa). Tarif dihitung untuk aplikasi visa yang "diterima" dan "ditolak".

Namun, dataset juga memiliki nilai untuk kasus yang ditutup. Biasanya ini adalah ketika imigran berhenti muncul untuk janji, bermigrasi ke tempat lain, atau meninggal. Karena angka-angka ini tidak digunakan ketika tarif dihitung, tarif sering muncul sebagai hilang (karena kasus tidak diterima atau ditolak).

Yang sedang berkata, jika satu-satunya kasus untuk tahun itu adalah "jika tidak ditutup," akankah tidak apa-apa untuk menghentikan pengamatan ini? Bagian dari masalah yang saya alami adalah bahwa tahun acak dalam dataset akan dihapus, karena satu-satunya keputusan untuk tahun itu ditutup.

Kasus-kasus yang ditutup sangat sewenang-wenang, dan seperti yang saya sebutkan, kemungkinan besar adalah kasus di mana imigran bermigrasi ke tempat lain, dan mungkin hanya menggunakan negara pertama sebagai tempat transit sementara. Data tidak secara spesifik mengatakan mengapa para imigran pergi, mengapa mereka ditutup, dll. Saya tidak begitu yakin bagaimana menangani nilai-nilai yang hilang ini. Saya tidak percaya bahwa metode imputasi standar akan bekerja di sini, karena perhitungan laju (tapi saya bisa saja salah).

EJ16
sumber
1
Anda tidak akan hanya menjatuhkannya. Anda dapat menerapkan beberapa imputasi. Lihat artikel dan buku yang ditulis bersama oleh Donald Rubin dan Rod Little.
Michael R. Chernick
1
Apakah beberapa imputasi menganggap data hilang secara acak? Apakah data ini hilang secara acak? MI selalu mengusir saya sedikit, dan ini adalah salah satu alasannya.
EJ16
2
Anda meningkatkan poin yang bagus. Mereka mengklasifikasikan data yang hilang sebagai 1) hilang secara acak, 2) hilang secara acak dan 3) tidak hilang secara acak. Kategori-kategori ini dijelaskan dalam buku mereka. Jika Anda membaca karya mereka dan memahami data Anda, Anda harus dapat menerapkan metode ini dengan benar. Anda memiliki tiga situasi: imigran berhenti muncul, pergi ke tempat lain atau mati. Ini tampaknya tidak acak tetapi Anda dapat melihat berdasarkan pada apa yang terjadi pada mereka kemungkinan penerimaan.
Michael R. Chernick
Dalam kasus di mana Anda tidak yakin apakah data Anda MCAR, MAR atau MNAR, akan bermanfaat untuk mempertimbangkan plot data yang hilang. Berikut adalah contoh pembuatan plot seperti itu menggunakan ggplot2 dan paket statistik R.
Wes
1
Tidak dapatkah Anda memasukkan kategori ketiga, "case drop", dalam data Anda? Mungkin kemudian analisis yang berbeda akan memperlakukannya berbeda? Menjatuhkan saja sepertinya aneh.
kjetil b halvorsen

Jawaban:

6

Perbedaan penting adalah dalam kasus Anda bukan perbedaan antara MCAR, MAR, dan NMAR, tetapi antara nilai hilang nyata dan nilai hilang mekanik. Nilai yang hilang sebenarnya adalah nilai yang ada, tetapi untuk beberapa alasan tidak dicatat. Nilai-nilai yang hilang secara mekanis tidak ada, tetapi struktur persegi panjang dari suatu dataset memaksa kami untuk memberikannya nilai, misalnya status kehamilan jika dataset Anda juga mencakup laki-laki. Teknik imputasi dirancang untuk nilai-nilai yang hilang. Contoh Anda adalah kasus nilai yang hilang secara mekanis; keputusan belum dibuat, sehingga nilainya tidak ada. Jika sebagian besar migran pindah maka itu adalah fitur penting dari proses migrasi, dan memasukkan nilai-nilai tersebut menyembunyikan fitur itu.

Maarten Buis
sumber
Tidak seperti kehamilan pria, bisa saja ada keputusan menerima / menolak dalam kasus di mana orang meninggal, pindah, atau berhenti muncul. Dalam analisis survival ini dapat diperlakukan secara cerdas sebagai kasus yang disensor, asalkan sensor tidak informatif. Saya ingin tahu apakah ada cara untuk memasukkan status yang disensor dalam analisis untuk kasus ini.
EdM
Maarten, terima kasih banyak. Masuk akal. Saya juga berpikir bahwa mungkin itu adalah bentuk penyensoran (misalnya kematian migran). Tapi saya tidak mengerti apa yang "merusak nilai-nilai itu menyembunyikan fitur itu." Jika demikian, apa saja pilihan lain? Aku masih menggaruk kepalaku.
EJ16
Mungkin, dan itu dicatat sebagai diterima / ditolak. Tetapi ada tahun-tahun tidak ada keputusan dibuat sama sekali, dan satu-satunya keputusan yang dibuat adalah "jika tidak ditutup." Jadi, itulah bagian yang saya terjebak saat ini.
EJ16
Maarten, sudahlah. Saya membaca kembali jawabannya, dan sekarang saya mengerti bahwa MI tidak akan cukup untuk ini. Saat ini menunjukkan bahwa sekitar setengah dari kasus ditutup dan karenanya hilang. Saya kira pertanyaan saya masih apa yang harus dilakukan dengan kasus-kasus ini, karena prosedur standar tidak memasukkan mereka dalam perhitungan tarif.
EJ16
+1 Jawaban yang bagus. Satu hal yang perlu dicatat adalah bahwa "mekanis" MV lebih sering disebut sebagai "nol struktural" atau nilai nol, setidaknya dalam literatur AS.
Mike Hunter
1

Jelas campuran setidaknya 2 proses penghilangan yang berbeda.

  1. Orang yang meninggal karena prosedur tidak berhubungan / meninggalkan / dll. karena alasan selain kemungkinan hasil prosedur. Berikut beberapa imputasi di bawah MAR masuk akal (jika Anda dapat dengan jelas mengidentifikasi kasus-kasus).
  2. Orang yang menyerah / menarik / keluar karena tidak memenuhi beberapa aturan dan / atau berpikir bahwa mereka tidak mungkin berhasil atau terlalu repot. Di sini tergantung pada apakah Anda dapat dari data yang Anda nilai peluangnya jika mereka melanjutkan. Jika Anda dapat asumsi MAR baik-baik saja, jika tidak, Anda memiliki situasi MNAR sulit.

Apa yang harus dilakukan tentang MNAR sulit. Anggaplah kasus-kasus semacam itu tidak berhasil mungkin agak ekstrem (atau sangat tepat, bagaimanapun juga mereka tidak berhasil). Atau impute di bawah MAR dan lihat membuat case ini kurang berhasil sampai Anda mencapai 0% dan merenungkan rentang nilai itu.

Björn
sumber
Memang. Pada awalnya, saya yakin datanya adalah MNAR. Namun, saya pikir Maarten benar. Hanya itu yang membuat saya sedikit lebih bingung tentang apa yang harus dilakukan dengan nol struktural.
EJ16