Apakah metode substitusi rata-rata untuk mengganti data yang hilang ketinggalan zaman? Apakah ada model yang lebih canggih yang harus digunakan? Jika demikian, apakah mereka?
missing-data
Melissa Duncombe
sumber
sumber
What is MI
memberikan daftar berbagai sumber.Jawaban:
Kecuali fakta bahwa tidak perlu menembak nyamuk dengan meriam (yaitu jika Anda memiliki satu nilai yang hilang dalam sejuta titik data, cukup jatuhkan), menggunakan rata-rata bisa menjadi kurang optimal untuk sedikitnya: hasilnya dapat bias, dan Anda setidaknya harus memperbaiki hasil untuk ketidakpastian.
Ada beberapa opsi lain, tetapi yang paling mudah untuk dijelaskan adalah beberapa imputasi. Konsepnya sederhana: berdasarkan pada model untuk data Anda sendiri (mis. Diperoleh dari kasus lengkap, meskipun opsi lain tersedia, seperti MICE), gambarkan nilai dari distribusi terkait untuk 'melengkapi' dataset Anda. Kemudian dalam dataset lengkap ini Anda tidak lagi memiliki data yang hilang, dan Anda dapat menjalankan analisis yang menarik.
Jika Anda melakukan ini hanya sekali (pada kenyataannya, mengganti nilai-nilai yang hilang dengan rata-rata adalah bentuk yang sangat berbeda), itu akan disebut imputasi tunggal, dan tidak ada alasan mengapa itu akan melakukan lebih baik daripada penggantian rata-rata.
Namun: triknya adalah melakukan ini berulang kali (karenanya Imputasi Berganda), dan setiap kali lakukan analisis Anda pada setiap dataset yang diisi (= imputed). Hasilnya biasanya seperangkat estimasi parameter atau serupa untuk setiap dataset yang dilengkapi. Dalam kondisi yang relatif longgar, tidak apa-apa untuk memperkirakan rata-rata parameter Anda di atas semua dataset yang ditetapkan.
Keuntungannya adalah bahwa ada juga formula sederhana untuk menyesuaikan kesalahan standar untuk ketidakpastian yang disebabkan oleh data yang hilang.
Jika Anda ingin tahu lebih banyak, Anda mungkin ingin membaca Little and Rubin 'Analisis Statistik dengan Data yang Hilang'. Ini juga memiliki metode lain (EM, ...) dan penjelasan lebih lanjut tentang bagaimana / mengapa / kapan mereka bekerja.
sumber
Anda tidak memberi tahu kami banyak tentang sifat data Anda yang hilang. Apakah Anda memeriksa MCAR ( Missing Completely at Random )? Mengingat Anda tidak dapat menggunakan MCAR, berarti penggantian dapat menyebabkan penaksir yang bias.
Sebagai titik awal non-matematis, saya dapat merekomendasikan dua referensi berikut:
sumber
Jika nilai Anda yang hilang didistribusikan secara acak, atau ukuran sampel Anda kecil, Anda mungkin lebih baik menggunakan rata-rata. Pertama-tama saya akan membagi data menjadi dua bagian: 1 dengan nilai-nilai yang hilang dan yang lainnya tanpa dan kemudian menguji perbedaan dalam cara beberapa variabel kunci antara dua sampel. Jika tidak ada perbedaan, Anda memiliki beberapa dukungan untuk mengganti mean, atau hanya menghapus pengamatan sepenuhnya.
-Ralph Winters
sumber
Data yang hilang adalah satu masalah besar di mana-mana. Saya harap Anda akan menjawab pertanyaan berikut terlebih dahulu. 1) berapa% usia data yang hilang? - jika lebih dari 10% dari data Anda tidak akan mengambil risiko merusaknya dengan rata-rata. Karena memasukkan hilang dengan rata-rata sama dengan memberi tahu kotak LR yang terlihat .. variabel ini berarti sebagian besar tempat (jadi buat beberapa kesimpulan) dan Anda tidak ingin kotak LR menarik kesimpulan atas saran Anda. Apakah Anda ?? Sekarang, yang paling bisa Anda lakukan jika Anda tidak ingin banyak adalah Anda dapat mencoba menghubungkan nilai-nilai variabel yang tersedia ini dengan nilai prediktor yang berbeda atau menggunakan naluri bisnis di mana pun mungkin..contoh..jika ada yang hilang untuk Marriage_ind, salah satu cara bisa melihat usia rata-rata orang yang menikah, (katakanlah 29 tahun), Saya dapat berasumsi bahwa pada umumnya orang (di India) menikah pada usia 30 dan 29 tahun menyarankan demikian. PROC MI juga melakukan sesuatu secara internal untuk Anda tetapi dengan cara yang jauh lebih canggih .. jadi 2 sen saya .. lihat setidaknya 4-5 variabel yang terkait dengan kesalahan Anda dan cobalah untuk membentuk korelasi .. Ini bisa lebih baik daripada rata-rata.
sumber