Untuk apa (simetris) distribusi sampel berarti penduga yang lebih efisien daripada median sampel?

17

Saya telah bekerja di bawah keyakinan bahwa median sampel adalah ukuran yang lebih kuat dari kecenderungan sentral daripada rata-rata sampel, karena mengabaikan outlier. Karena itu saya terkejut mengetahui (dalam jawaban untuk pertanyaan lain ) bahwa untuk sampel yang diambil dari distribusi normal, varians dari mean sampel kurang dari varians median sampel (setidaknya untuk besarn).

Saya mengerti secara matematis mengapa ini benar. Adakah cara "filosofis" dalam memandang hal ini yang akan membantu intuisi tentang kapan harus menggunakan median daripada rata-rata untuk distribusi lain?

Apakah ada alat matematika yang membantu menjawab pertanyaan dengan cepat untuk distribusi tertentu?

Josh Brown Kramer
sumber

Jawaban:

20

Mari kita asumsikan kita membatasi pertimbangan pada distribusi simetris di mana mean dan variansnya terbatas (jadi Cauchy, misalnya, dikecualikan dari pertimbangan).

Lebih jauh, saya akan membatasi diri pada awalnya untuk kasus-kasus unimodal terus menerus, dan memang sebagian besar untuk situasi 'baik' (meskipun saya mungkin kembali nanti dan membahas beberapa kasus lainnya).

Varians relatif tergantung pada ukuran sampel. Sudah umum untuk membahas rasio ( kali) varians asimptotik, tetapi kita harus ingat bahwa pada ukuran sampel yang lebih kecil situasinya akan agak berbeda. (Median kadang-kadang terasa lebih baik atau lebih buruk daripada perilaku asimptotik yang disarankan. Misalnya, pada normal dengan n = 3nn=3 memiliki efisiensi sekitar 74% daripada 63%. Perilaku asimptotik umumnya merupakan panduan yang baik pada tingkat sedang ukuran sampel.)

Asimptotik cukup mudah untuk ditangani:

Berarti: varians = σ 2n×σ2 .

Median : varians = 1n× manaf(m)adalah ketinggian kepadatan di median.1[4f(m)2]f(m)

Jadi jika f(m)>12σ , median akan secara asimptotik lebih efisien.

[Dalam kasus normal, , jadi1f(m)=12πσ , di mana efisiensi relatif asimptotik2/π1[4f(m)2]=πσ222/π )]

Kita dapat melihat bahwa varians dari median akan tergantung pada perilaku kerapatan yang sangat dekat dengan pusat, sedangkan varians dari rata-rata tergantung pada varian dari distribusi asli (yang dalam beberapa hal dipengaruhi oleh kepadatan di mana-mana, dan dalam khususnya, lebih dari cara berperilaku lebih jauh dari pusat)

Yang mengatakan, sementara median kurang dipengaruhi oleh outlier daripada rata-rata, dan kita sering melihat bahwa itu memiliki varians yang lebih rendah daripada rata-rata ketika distribusi berekor berat (yang memang menghasilkan lebih banyak outlier), yang benar-benar mendorong kinerja median adalah inliers . Sering terjadi bahwa (untuk varian tetap) ada kecenderungan bagi keduanya untuk pergi bersama.

Artinya, secara umum, saat ekor semakin berat, ada kecenderungan (pada nilai tetap ) distribusi untuk mendapatkan "peakier" pada saat yang sama (lebih kurtotik, dalam arti longgar). Ini bukan, bagaimanapun, hal tertentu - itu cenderung menjadi kasus di berbagai kepadatan umum dianggap, tetapi tidak selalu berlaku. Ketika itu memang berlaku, varians dari median akan berkurang (karena distribusi memiliki lebih banyak probabilitas di lingkungan median), sedangkan varians dari mean tetap konstan (karena kami memperbaiki σ 2σ2σ2 ).

Jadi di berbagai kasus umum median akan cenderung melakukan "lebih baik" daripada rata-rata ketika ekornya berat, (tetapi kita harus ingat bahwa relatif mudah untuk membuat contoh tandingan). Jadi kita dapat mempertimbangkan beberapa kasus, yang dapat menunjukkan kepada kita apa yang sering kita lihat, tetapi kita tidak boleh membacanya terlalu banyak, karena ekor yang lebih berat tidak secara universal cocok dengan puncak yang lebih tinggi.

Kita tahu median adalah sekitar 63,7% lebih efisien (untuk n besar) sebagai rata-rata di normal.

Bagaimana dengan, katakanlah distribusi logistik , yang seperti normal kira-kira parabola tentang pusat, tetapi memiliki ekor yang lebih berat (seperti x menjadi besar, mereka menjadi eksponensial).

Jika kita mengambil parameter skala menjadi 1, logistik memiliki varians π2/3 dan tinggi di median 1/4, jadi . Rasio varians kemudianπ2/14f(m)2=4 sehingga dalam sampel besar, median kira-kira 82% seefisien mean.π2/120.82

Mari kita perhatikan dua kepadatan lain dengan ekor seperti eksponensial, tetapi puncaknya berbeda.

Pertama, distribusi sekan hiperbolik ( )sech , yang bentuk standarnya memiliki varian 1 dan tinggi di tengah , sehingga rasio varian asimptotik adalah 1 (keduanya sama-sama efisien dalam sampel besar). Namun, dalam sampel kecil mean lebih efisien (variansnya sekitar 95% dari itu untuk median kapan12n=5 , misalnya).

Di sini kita dapat melihat bagaimana, ketika kita maju melalui ketiga kerapatan (memegang varians konstan), bahwa ketinggian di median meningkat:

masukkan deskripsi gambar di sini

1212

Jika kita membuat peakier distribusi masih untuk varian tertentu, (mungkin dengan membuat ekor lebih berat daripada eksponensial), median masih bisa jauh lebih efisien (relatif berbicara). Tidak ada batasan seberapa tinggi puncak itu bisa terjadi.

ν=5

...

Pada ukuran sampel terbatas, kadang-kadang mungkin untuk menghitung varians dari distribusi median secara eksplisit. Di mana itu tidak layak - atau bahkan hanya merepotkan - kita dapat menggunakan simulasi untuk menghitung varians median (atau rasio varians *) di sampel acak yang diambil dari distribusi (yang adalah apa yang saya lakukan untuk mendapatkan contoh sampel kecil di atas ).

* Walaupun kita sering tidak benar-benar membutuhkan varians dari mean, karena kita dapat menghitungnya jika kita mengetahui varians dari distribusinya, mungkin lebih efisien secara komputasi untuk melakukannya, karena ia bertindak seperti variate kontrol (mean dan median seringkali cukup berkorelasi).

Glen_b -Reinstate Monica
sumber
1

f(x)=12e-|x-μ|,-<x<
μX1,X2,...,Xn2/n14nf(μ)2=14n/4=1/n<2/n

σ2=11/nn14n(1/2π)2=π2n1.57/n>1/n

kjetil b halvorsen
sumber