Memperkirakan parameter distribusi normal: median, bukan rata-rata?

15

Pendekatan umum untuk memperkirakan parameter distribusi normal adalah dengan menggunakan mean dan sampel standar deviasi / varians.

Namun, jika ada beberapa outlier, median dan deviasi median dari median harus jauh lebih kuat, bukan?

Pada beberapa set data saya mencoba, distribusi normal diperkirakan oleh tampaknya menghasilkan lebih cocok banyak daripada klasik N ( μ , σ ) dengan menggunakan mean dan Penyimpangan RMS.N(median(x),median|xmedian(x)|)N(μ^,σ^)

Apakah ada alasan untuk tidak menggunakan median jika Anda menganggap ada beberapa outlier dalam kumpulan data? Apakah Anda tahu referensi untuk pendekatan ini? Pencarian cepat di Google tidak menemukan saya hasil yang berguna yang membahas manfaat menggunakan median di sini (tapi jelas, "median estimasi parameter distribusi normal" bukan kumpulan istilah pencarian yang sangat spesifik).

Penyimpangan median, apakah bias? Haruskah saya kalikan dengan untuk mengurangi bias?n1n

Apakah Anda tahu pendekatan estimasi parameter kuat serupa untuk distribusi lain seperti distribusi Gamma atau distribusi Gauss yang dimodifikasi secara eksponensial (yang membutuhkan Skewness dalam estimasi parameter, dan pencilan benar-benar mengacaukan nilai ini)?

Erich Schubert
sumber
2
Jika Anda memiliki outlier, mungkin distribusi Anda tidak benar-benar normal. Ini tidak menjawab pertanyaan Anda, tentu saja, tetapi, IMO, ini adalah kemungkinan yang harus selalu dihibur.
sds
2
Saya tidak memiliki distribusi matematis yang sederhana, bersih, dan sederhana. Saya punya data nyata, yang sifatnya berantakan. Tidak ada distribusi apa pun yang cocok, karena Anda tidak dapat menangani situasi secara analitis lagi. Dan outlier sebenarnya adalah minat saya. :-)
Erich Schubert

Jawaban:

15

Pengamatan bahwa dalam contoh yang melibatkan data yang diambil dari distribusi Gaussian yang terkontaminasi, Anda akan mendapatkan estimasi yang lebih baik dari parameter yang menggambarkan sebagian besar data dengan menggunakan bukan med | x - med ( x ) | dimana mad ( x )madmed|xmed(x)|mad(x) adalah:

mad=1.4826×med|xmed(x)|

--di mana, adalah faktor konsistensi yang dirancang untuk memastikan bahwa E ( mad ( x ) 2 ) = Var ( x ) ketika x tidak terkontaminasi - pada awalnya dibuat oleh Gauss (Walker , H. (1931)).(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

Saya tidak bisa memikirkan alasan untuk tidak menggunakan sebagai ganti mean sampel dalam kasus ini. Efisiensi yang lebih rendah (di Gaussian!) Dari orang gila bisa menjadi alasan untuk tidak menggunakan orang gila dalam contoh Anda. Namun, ada alternatif yang sama kuat dan sangat efisien untuk orang gila . Salah satunya adalah Q nmedmadmadmadQn. Penaksir ini memiliki banyak keunggulan lain di samping. Ini juga sangat tidak sensitif terhadap outlier (bahkan hampir sama tidak sensitifnya dengan orang gila). Berlawanan dengan orang gila, itu tidak dibangun di sekitar perkiraan lokasi dan tidak berasumsi bahwa distribusi bagian data yang tidak terkontaminasi adalah simetris. Seperti orang gila, ini didasarkan pada statistik pesanan, sehingga selalu didefinisikan dengan baik bahkan ketika distribusi yang mendasari sampel Anda tidak memiliki momen. Seperti orang gila, Ia memiliki bentuk eksplisit yang sederhana. Bahkan lebih daripada untuk orang gila, saya tidak melihat alasan untuk menggunakan standar deviasi sampel daripada pada contoh yang Anda jelaskan (lihat Rousseeuw dan Croux 1993 untuk info lebih lanjut tentang Q nQnQn ).

xΓ(ν,λ)

med(x)λ(ν1/3)

dan

mad(x)λν

ν>1.5

ν^=(med(x)mad(x))2

dan

λ^=mad(x)2med(x)

Lihat Chen dan Rubin (1986) untuk derivasi lengkap.

  • J. Chen dan H. Rubin, 1986. Batas untuk perbedaan antara median dan rata-rata distribusi Gamma dan Poisson, Statist. Mungkin. Lett., 4, 281–283.
  • PJ Rousseeuw dan C. Croux, 1993. Alternatif untuk Median Absolute Deviation Journal dari American Statistics Association, Vol. 88, No. 424, hlm. 1273-1283
  • Walker, H. (1931). Studi dalam Sejarah Metode Statistik. Baltimore, MD: Williams & Wilkins Co. hlm. 24–25.
pengguna603
sumber
1
Φ1(0.75)11.4826
@ErichSchubert: Anda benar: saya lupa invers kedua .. dikoreksi.
user603
2
n/(n1)
1
@whuber: terima kasih untuk ini, saya sekarang menyadari kalimat saya 'ini serupa semangat ' dapat dengan mudah disalahpahami. Saya menghapusnya.
user603
1
Saya telah membuat bagian ExNormal pertanyaan terpisah: stats.stackexchange.com/questions/48907/... Tapi saya punya satu lagi untuk Anda: Distribusi LogNormal - pegangan dengan menerapkan log, kemudian lanjutkan dengan distribusi normal?
Erich Schubert
7

Jika seperti yang Anda tegaskan, data normal kecuali sebagian kecil dari outlier, median dan deviasi absolut akan kuat terhadap kesalahan besar tetapi tidak akan membuat penggunaan informasi yang sangat efisien dalam data non-outlying.

Jika Anda tahu beberapa apriori terikat pada proporsi outlier Anda dapat memotong proporsi itu untuk mean dan Winsorize deviasi standar. Alternatif yang tidak memerlukan pengetahuan seperti itu akan menggunakan M-estimator untuk lokasi dan jumlah terkait untuk varians. Keuntungan dalam efisiensi jika asumsi Anda benar (seperti data benar-benar normal terlepas dari persentase kecil pencilan) dalam beberapa keadaan mungkin substansial.

Simpangan median dianggap bias sebagai perkiraan simpangan baku - tetapi tidak sepertinn-1pengaturan; kuadrat sampel yang tidak disesuaikan disesuaikan secara asimptotik dengan varians, tetapi median sampel deviasi absolut tidak secara asimptotik dengan deviasi standar populasi; Anda perlu mengalikannya dengan konstanta hanya untuk mendapatkan konsistensi . Setelah Anda selesai melakukannya , sampel kecil itu masih bias dalam arti yang sama dengan mean square yang tidak disesuaikan.

Glen_b -Reinstate Monica
sumber