Pendekatan umum untuk memperkirakan parameter distribusi normal adalah dengan menggunakan mean dan sampel standar deviasi / varians.
Namun, jika ada beberapa outlier, median dan deviasi median dari median harus jauh lebih kuat, bukan?
Pada beberapa set data saya mencoba, distribusi normal diperkirakan oleh tampaknya menghasilkan lebih cocok banyak daripada klasik N ( μ , σ ) dengan menggunakan mean dan Penyimpangan RMS.
Apakah ada alasan untuk tidak menggunakan median jika Anda menganggap ada beberapa outlier dalam kumpulan data? Apakah Anda tahu referensi untuk pendekatan ini? Pencarian cepat di Google tidak menemukan saya hasil yang berguna yang membahas manfaat menggunakan median di sini (tapi jelas, "median estimasi parameter distribusi normal" bukan kumpulan istilah pencarian yang sangat spesifik).
Penyimpangan median, apakah bias? Haruskah saya kalikan dengan untuk mengurangi bias?
Apakah Anda tahu pendekatan estimasi parameter kuat serupa untuk distribusi lain seperti distribusi Gamma atau distribusi Gauss yang dimodifikasi secara eksponensial (yang membutuhkan Skewness dalam estimasi parameter, dan pencilan benar-benar mengacaukan nilai ini)?
sumber
Jawaban:
Pengamatan bahwa dalam contoh yang melibatkan data yang diambil dari distribusi Gaussian yang terkontaminasi, Anda akan mendapatkan estimasi yang lebih baik dari parameter yang menggambarkan sebagian besar data dengan menggunakan bukan med | x - med ( x ) | dimana mad ( x )mad med|x−med(x)| mad(x) adalah:
--di mana, adalah faktor konsistensi yang dirancang untuk memastikan bahwa E ( mad ( x ) 2 ) = Var ( x ) ketika x tidak terkontaminasi - pada awalnya dibuat oleh Gauss (Walker , H. (1931)).(Φ−1(0.75))−1=1.4826
Saya tidak bisa memikirkan alasan untuk tidak menggunakan sebagai ganti mean sampel dalam kasus ini. Efisiensi yang lebih rendah (di Gaussian!) Dari orang gila bisa menjadi alasan untuk tidak menggunakan orang gila dalam contoh Anda. Namun, ada alternatif yang sama kuat dan sangat efisien untuk orang gila . Salah satunya adalah Q nmed mad mad mad Qn . Penaksir ini memiliki banyak keunggulan lain di samping. Ini juga sangat tidak sensitif terhadap outlier (bahkan hampir sama tidak sensitifnya dengan orang gila). Berlawanan dengan orang gila, itu tidak dibangun di sekitar perkiraan lokasi dan tidak berasumsi bahwa distribusi bagian data yang tidak terkontaminasi adalah simetris. Seperti orang gila, ini didasarkan pada statistik pesanan, sehingga selalu didefinisikan dengan baik bahkan ketika distribusi yang mendasari sampel Anda tidak memiliki momen. Seperti orang gila, Ia memiliki bentuk eksplisit yang sederhana. Bahkan lebih daripada untuk orang gila, saya tidak melihat alasan untuk menggunakan standar deviasi sampel daripada pada contoh yang Anda jelaskan (lihat Rousseeuw dan Croux 1993 untuk info lebih lanjut tentang Q nQn Qn ).
dan
dan
Lihat Chen dan Rubin (1986) untuk derivasi lengkap.
sumber
Jika seperti yang Anda tegaskan, data normal kecuali sebagian kecil dari outlier, median dan deviasi absolut akan kuat terhadap kesalahan besar tetapi tidak akan membuat penggunaan informasi yang sangat efisien dalam data non-outlying.
Jika Anda tahu beberapa apriori terikat pada proporsi outlier Anda dapat memotong proporsi itu untuk mean dan Winsorize deviasi standar. Alternatif yang tidak memerlukan pengetahuan seperti itu akan menggunakan M-estimator untuk lokasi dan jumlah terkait untuk varians. Keuntungan dalam efisiensi jika asumsi Anda benar (seperti data benar-benar normal terlepas dari persentase kecil pencilan) dalam beberapa keadaan mungkin substansial.
Simpangan median dianggap bias sebagai perkiraan simpangan baku - tetapi tidak sepertinn - 1 pengaturan; kuadrat sampel yang tidak disesuaikan disesuaikan secara asimptotik dengan varians, tetapi median sampel deviasi absolut tidak secara asimptotik dengan deviasi standar populasi; Anda perlu mengalikannya dengan konstanta hanya untuk mendapatkan konsistensi . Setelah Anda selesai melakukannya , sampel kecil itu masih bias dalam arti yang sama dengan mean square yang tidak disesuaikan.
sumber