Membedakan hilang secara acak (MAR) dari hilang sepenuhnya secara acak (MCAR)

13

Saya sudah menjelaskan dua hal ini berulang kali. Mereka terus memasak otak saya. Hilang Tidak Secara Acak masuk akal untuk menjadi, dan Hilang Benar-benar di Acak masuk akal ... itu Hilang di Acak yang tidak sebanyak.

Apa yang memunculkan data yang mungkin MAR tetapi bukan MCAR?

Fomite
sumber
Apakah pertanyaan Anda dijawab oleh pertanyaan lain ini, Apakah ada alasan bagus untuk nama "Missing at Random"? , dan sumber daya yang mereka daftarkan?
Andy W
3
@AndyW Terus terang, tidak. Diskusi yang menarik tentang mengapa nama itu cacat, dan sebuah artikel yang bersembunyi di balik dinding berlangganan.
Fomite

Jawaban:

18

Missing at random (MAR) berarti bahwa hilangnya dapat dijelaskan oleh variabel yang Anda miliki informasi lengkapnya. Ini bukan asumsi yang dapat diuji, tetapi ada kasus di mana itu masuk akal vs tidak.

Misalnya, ambil jajak pendapat politik. Banyak orang menolak untuk menjawab. Jika Anda berasumsi bahwa alasan orang menolak untuk menjawab sepenuhnya didasarkan pada demografi, dan jika Anda memiliki demografi tersebut pada setiap orang, maka datanya adalah MAR. Diketahui bahwa beberapa alasan mengapa orang menolak untuk menjawab dapat didasarkan pada demografi (misalnya, orang-orang berpenghasilan rendah dan tinggi cenderung menjawab daripada orang-orang di tengah), tetapi benar-benar tidak ada cara untuk mengetahui apakah itu adalah penjelasan lengkapnya.

Jadi, pertanyaannya menjadi "apakah sudah cukup?". Seringkali, metode seperti beberapa imputasi bekerja lebih baik daripada metode lain selama data tidak sangat hilang tidak secara acak.

Peter Flom - Pasang kembali Monica
sumber
5
Journal of statistik Software (online) memiliki edisi terbaru tentang beberapa imputasi, dan saya sudah melihat Big Three paket beberapa Imputasi untuk R: Amelia, mi, dan mice. Persamaan dan perbedaannya sangat menarik. ( Amelia'S over imputecukup menarik.)
Wayne
1
Berikut tautan ke masalah JSS: jstatsoft.org/v45
gung
11

Saya tidak yakin apakah ini benar, tetapi cara saya mencoba memahaminya adalah seolah-olah ada matriks 2x2 kemungkinan yang tidak terlalu simetris. Sesuatu seperti:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Yaitu, jika ada pola hilangnya variabel dan data yang kami miliki tidak dapat menjelaskannya, kami memiliki MNAR, tetapi jika data yang kami miliki (yaitu variabel lain dalam kumpulan data kami) dapat menjelaskannya, kami memiliki MAR. Jika tidak ada pola hilangnya, itu MCAR.

Saya mungkin jauh di sini. Selain itu, ini membuka definisi "Pola", dan "Data menjelaskan". Saya pikir "Data menjelaskan" sebagai arti variabel lain dalam set data Anda menjelaskannya, tapi saya percaya bahwa prosedur Anda juga dapat menjelaskannya (misalnya contoh yang baik di utas lain adalah jika Anda memiliki tiga variabel pengukuran yang mengukur hal yang sama dan Anda Prosedurnya adalah jika dua pengukuran pertama tidak setuju dengan terlalu banyak Anda mengambil pengukuran ketiga).

Apakah ini cukup akurat untuk intuisi, CV?

Wayne
sumber
-1

Saya juga berjuang untuk memahami perbedaannya, jadi mungkin beberapa contoh bisa membantu.

MCAR : Hilang sama sekali secara acak , ini bagus. Ini berarti bahwa non-respons sepenuhnya acak. Jadi survei Anda tidak bias.

MAR : Hilang dalam situasi acak , lebih buruk. Bayangkan Anda meminta IQ dan Anda memiliki lebih banyak peserta wanita daripada pria. Beruntung bagi Anda, IQ tidak terkait dengan jenis kelamin, sehingga Anda dapat mengontrol jenis kelamin (menerapkan bobot) untuk mengurangi bias.

MNAR : Tidak hilang secara acak , buruk. Pertimbangkan untuk melakukan survei untuk tingkat pendapatan. Dan lagi, Anda memiliki lebih banyak perempuan daripada peserta laki-laki. Dalam hal ini, ini merupakan masalah, karena tingkat pendapatan terkait dengan gender. Karenanya hasil Anda akan menjadi bias. Tidak mudah dihilangkan.

Anda lihat, itu adalah hubungan "segitiga" antara variabel target (Y, seperti pendapatan), variabel tambahan (X, seperti usia) dan perilaku respons (R, kelompok respons). Jika X hanya terkait dengan R, good-ish (MAR). Jika ada hubungan antara X dan R dan X dan Y, itu buruk (MNAR).

HonzaB
sumber