Saya sedang melakukan proyek yang melibatkan penggantian nilai yang hilang dalam satu set data (pertama kali melakukan ini). Ini melibatkan menggunakan dua metode replacement by mean
dan replacement by median
untuk mengisi nilai-nilai yang hilang. Tidak ada banyak perbedaan antara hasil minimum, median, maksimum, rata-rata dan standar deviasi data menggunakan kedua metode dan saya bertanya-tanya metode mana yang lebih baik dan bagaimana saya bisa membuat keputusan mana yang lebih baik menggunakan hasil yang dihasilkan?
mean
median
data-imputation
Jake MB
sumber
sumber
Jawaban:
Itu selalu tergantung pada data Anda dan tugas Anda.
Jika ada dataset yang memiliki outlier hebat, saya lebih suka median. Mis: 99% pendapatan rumah tangga di bawah 100, dan 1% di atas 500.
Di sisi lain, jika kita bekerja dengan memakai pakaian yang pelanggan berikan untuk dry-cleaner (dengan asumsi operator dry-cleaner mengisi bidang ini secara intuitif), saya akan mengisi barang yang hilang dengan nilai rata-rata pemakaian.
Lebih baik mulai dari pemahaman data dan kemudian artikel ini akan membantu titik awal.
sumber
Imputasi adalah sarana untuk mencapai tujuan, bukan tujuan itu sendiri. Dalam beberapa keadaan, mengganti data yang hilang mungkin merupakan hal yang salah untuk dilakukan. Pastikan bahwa Anda pertama-tama memperhatikan mengapa data Anda tidak ada, seperti yang dijelaskan misalnya di halaman Wikipedia data Hilang , dan imputasi itu sebenarnya sesuai untuk menjawab pertanyaan yang ingin dijawab oleh proyek Anda.
Jika beberapa asumsi terpenuhi (misalnya, jika probabilitas variabel memiliki nilai yang hilang tidak tergantung pada nilai itu sendiri, secara teknis disebut "hilang secara acak") dan penelitian Anda melibatkan beberapa variabel, Anda mungkin lebih baik menggunakan beberapa imputasi alih-alih penggantian dengan cara atau median. Dalam beberapa imputasi, nilai-nilai yang diketahui dari semua variabel digunakan untuk menyediakan beberapa set estimasi data yang hilang. Pendekatan ini dapat memberikan taksiran yang lebih baik baik dari hubungan yang mendasar di antara variabel-variabel dan dari keandalan estimasi Anda. Lihat pertanyaan di situs ini yang memiliki
multiple-imputation
tag untuk informasi lebih lanjut.sumber