Apakah metode substitusi rata-rata untuk mengganti data yang hilang ketinggalan zaman?

8

Apakah metode substitusi rata-rata untuk mengganti data yang hilang ketinggalan zaman? Apakah ada model yang lebih canggih yang harus digunakan? Jika demikian, apakah mereka?

Melissa Duncombe
sumber
situs ini mungkin memberikan jawaban untuk pertanyaan Anda. Tautan What is MImemberikan daftar berbagai sumber.
mpiktas

Jawaban:

14

Kecuali fakta bahwa tidak perlu menembak nyamuk dengan meriam (yaitu jika Anda memiliki satu nilai yang hilang dalam sejuta titik data, cukup jatuhkan), menggunakan rata-rata bisa menjadi kurang optimal untuk sedikitnya: hasilnya dapat bias, dan Anda setidaknya harus memperbaiki hasil untuk ketidakpastian.

Ada beberapa opsi lain, tetapi yang paling mudah untuk dijelaskan adalah beberapa imputasi. Konsepnya sederhana: berdasarkan pada model untuk data Anda sendiri (mis. Diperoleh dari kasus lengkap, meskipun opsi lain tersedia, seperti MICE), gambarkan nilai dari distribusi terkait untuk 'melengkapi' dataset Anda. Kemudian dalam dataset lengkap ini Anda tidak lagi memiliki data yang hilang, dan Anda dapat menjalankan analisis yang menarik.

Jika Anda melakukan ini hanya sekali (pada kenyataannya, mengganti nilai-nilai yang hilang dengan rata-rata adalah bentuk yang sangat berbeda), itu akan disebut imputasi tunggal, dan tidak ada alasan mengapa itu akan melakukan lebih baik daripada penggantian rata-rata.

Namun: triknya adalah melakukan ini berulang kali (karenanya Imputasi Berganda), dan setiap kali lakukan analisis Anda pada setiap dataset yang diisi (= imputed). Hasilnya biasanya seperangkat estimasi parameter atau serupa untuk setiap dataset yang dilengkapi. Dalam kondisi yang relatif longgar, tidak apa-apa untuk memperkirakan rata-rata parameter Anda di atas semua dataset yang ditetapkan.

Keuntungannya adalah bahwa ada juga formula sederhana untuk menyesuaikan kesalahan standar untuk ketidakpastian yang disebabkan oleh data yang hilang.

Jika Anda ingin tahu lebih banyak, Anda mungkin ingin membaca Little and Rubin 'Analisis Statistik dengan Data yang Hilang'. Ini juga memiliki metode lain (EM, ...) dan penjelasan lebih lanjut tentang bagaimana / mengapa / kapan mereka bekerja.

Nick Sabbe
sumber
1
+1 Saya akan berasumsi bahwa imputasi tunggal berkinerja lebih baik daripada substitusi rata-rata karena Anda memasukkan informasi tambahan ( prediktor vs prediktor). Namun, saya sepenuhnya setuju bahwa MI adalah jalan yang harus ditempuh. 0p
Bernd Weiss
11

Anda tidak memberi tahu kami banyak tentang sifat data Anda yang hilang. Apakah Anda memeriksa MCAR ( Missing Completely at Random )? Mengingat Anda tidak dapat menggunakan MCAR, berarti penggantian dapat menyebabkan penaksir yang bias.

Sebagai titik awal non-matematis, saya dapat merekomendasikan dua referensi berikut:

  1. Graham, Hohn W. (2009): Analisis Data Hilang: Membuatnya Bekerja di Dunia Nyata.
  2. Allison, Paul (2002): Data yang hilang. (lihat bagian "Imputasi", hlm. 11)
Bernd Weiss
sumber
@ Bernd referensi Graham sangat baik, itu banyak membantu saya dengan mendapatkan beberapa imputasi.
richiemorrisroe
2

Jika nilai Anda yang hilang didistribusikan secara acak, atau ukuran sampel Anda kecil, Anda mungkin lebih baik menggunakan rata-rata. Pertama-tama saya akan membagi data menjadi dua bagian: 1 dengan nilai-nilai yang hilang dan yang lainnya tanpa dan kemudian menguji perbedaan dalam cara beberapa variabel kunci antara dua sampel. Jika tidak ada perbedaan, Anda memiliki beberapa dukungan untuk mengganti mean, atau hanya menghapus pengamatan sepenuhnya.

-Ralph Winters

Ralph Winters
sumber
1
Tetapi menggunakan mean berarti Anda memprediksi nilai pada titik itu. Bukan itu yang terjadi, yang terjadi adalah upaya untuk memulihkan nilai acak. Tampaknya karena Anda memiliki perkiraan varians juga Anda harus menggunakan keduanya (yaitu, undian acak dari distribusi).
Yohanes
Selain itu, substitusi rata-rata akan mengurangi varians estimasi Anda yang akan membuang semua kesalahan standar dan interval kepercayaan selama sisa analisis Anda.
richiemorrisroe
Iya. Saya hanya menyarankan agar populasi data yang hilang dan tidak hilang diperiksa sebelum secara membabi buta menyelami MI, yang dapat mengambil banyak daya komputasi dengan mengorbankan perolehan minimum.
Ralph Winters
0

Data yang hilang adalah satu masalah besar di mana-mana. Saya harap Anda akan menjawab pertanyaan berikut terlebih dahulu. 1) berapa% usia data yang hilang? - jika lebih dari 10% dari data Anda tidak akan mengambil risiko merusaknya dengan rata-rata. Karena memasukkan hilang dengan rata-rata sama dengan memberi tahu kotak LR yang terlihat .. variabel ini berarti sebagian besar tempat (jadi buat beberapa kesimpulan) dan Anda tidak ingin kotak LR menarik kesimpulan atas saran Anda. Apakah Anda ?? Sekarang, yang paling bisa Anda lakukan jika Anda tidak ingin banyak adalah Anda dapat mencoba menghubungkan nilai-nilai variabel yang tersedia ini dengan nilai prediktor yang berbeda atau menggunakan naluri bisnis di mana pun mungkin..contoh..jika ada yang hilang untuk Marriage_ind, salah satu cara bisa melihat usia rata-rata orang yang menikah, (katakanlah 29 tahun), Saya dapat berasumsi bahwa pada umumnya orang (di India) menikah pada usia 30 dan 29 tahun menyarankan demikian. PROC MI juga melakukan sesuatu secara internal untuk Anda tetapi dengan cara yang jauh lebih canggih .. jadi 2 sen saya .. lihat setidaknya 4-5 variabel yang terkait dengan kesalahan Anda dan cobalah untuk membentuk korelasi .. Ini bisa lebih baik daripada rata-rata.

ayush biyani
sumber