Jika saya menghitung median dari jumlah pengamatan yang cukup besar yang diambil dari distribusi yang sama, apakah teorema limit pusat menyatakan bahwa distribusi median akan mendekati distribusi normal? Pemahaman saya adalah bahwa ini benar dengan menggunakan sejumlah besar sampel, tetapi apakah itu juga berlaku untuk median?
Jika tidak, apa distribusi median sampel yang mendasarinya?
normal-distribution
mathematical-statistics
sampling
median
central-limit-theorem
pengguna1728853
sumber
sumber
Jawaban:
Jika Anda bekerja dalam hal variabel indikator (yaitu jika dan sebaliknya), Anda dapat langsung menerapkan teorema batas Tengah ke rata-rata , dan dengan menggunakan metode Delta , ubah itu menjadi distribusi normal asimtotik untuk , yang pada gilirannya berarti bahwa Anda mendapatkan normalitas asimtotik untuk quantiles tetap .Zi=1 Xi≤x 0 Z F - 1 X ( ˉ Z ) XF−1X(Z¯) X
Jadi bukan hanya median, tetapi kuartil, persentil ke-90, ... dll.
Longgar, jika kita berbicara tentang th kuantil sampel dalam sampel cukup besar, kita mendapatkan bahwa sekitar akan memiliki distribusi normal dengan mean th kuantil populasi dan varians .q q xq q(1−q)/(nfX(xq)2)
Maka untuk median ( ), varians dalam sampel yang cukup besar akan sekitar .q=1/2 1/(4nfX(μ~)2)
Anda memerlukan semua kondisi di sepanjang jalan untuk menahan, tentu saja, sehingga tidak bekerja dalam semua situasi, tetapi untuk distribusi terus menerus di mana kepadatan pada jumlah populasi positif dan dapat dibedakan, dll, ...
Lebih lanjut, ini tidak berlaku untuk kuantil ekstrem, karena CLT tidak bekerja di sana (rata-rata Z tidak akan normal asimptotik). Anda memerlukan teori berbeda untuk nilai ekstrem.
Sunting: kritik whuber benar; ini akan berhasil jika adalah median populasi daripada median sampel. Argumen perlu dimodifikasi untuk benar-benar berfungsi dengan baik.x
sumber
Gagasan kuncinya adalah bahwa distribusi sampling median mudah diungkapkan dalam hal fungsi distribusi tetapi lebih rumit untuk diekspresikan dalam hal nilai median. Setelah kami memahami bagaimana fungsi distribusi dapat menyatakan kembali nilai sebagai probabilitas dan kembali lagi, mudah untuk mendapatkan distribusi sampling yang tepat dari median. Diperlukan sedikit analisis perilaku fungsi distribusi di dekat mediannya untuk menunjukkan bahwa ini normal asimptotik.
(Analisis yang sama bekerja untuk distribusi sampling dari setiap kuantil, bukan hanya median.)
Saya tidak akan berusaha keras dalam eksposisi ini, tetapi saya melakukannya dalam langkah-langkah yang mudah dibenarkan dengan cara yang ketat jika Anda memiliki pikiran untuk melakukan itu.
Intuisi
Ini adalah snapshot dari kotak yang berisi 70 atom gas atom panas:
Dalam setiap gambar saya telah menemukan lokasi, ditampilkan sebagai garis vertikal merah, yang membelah atom menjadi dua kelompok yang sama antara kiri (digambarkan sebagai titik hitam) dan kanan (titik putih). Ini median posisi: 35 atom terletak di sebelah kiri dan 35 di sebelah kanan. Median berubah karena atom bergerak secara acak di sekitar kotak.
di mana adalah jumlah total atom dan sebanding dengan jumlah pemisahan atom menjadi dua subkelompok yang sama.C nn C n
Formula ini mengidentifikasi distribusi median sebagai Beta distribusi(n/2+1,n/2+1) .
Sekarang perhatikan sebuah kotak dengan bentuk yang lebih rumit:
Sekali lagi median bervariasi. Karena kotaknya rendah di dekat pusat, tidak ada banyak volumenya di sana: perubahan kecil dalam volume yang ditempati oleh setengah atom kiri (yang hitam sekali lagi) - atau, kita bisa mengakui, yang daerah ke kiri seperti yang ditunjukkan dalam angka-angka ini - sesuai dengan perubahan yang relatif besar dalam posisi horizontal dari median. Kenyataannya, karena area yang disubversi oleh bagian horizontal kecil dari kotak sebanding dengan tinggi di sana, perubahan median dibagi dengan tinggi kotak. Ini menyebabkan median lebih bervariasi untuk kotak ini daripada kotak persegi, karena yang ini jauh lebih rendah di tengah.
Singkatnya, ketika kita mengukur posisi median dalam hal luas (ke kiri dan kanan), analisis asli (untuk kotak persegi) berdiri tidak berubah. Bentuk kotak hanya mempersulit distribusi jika kita bersikeras mengukur median dalam hal posisi horizontal. Ketika kami melakukannya, hubungan antara area dan representasi posisi berbanding terbalik dengan ketinggian kotak.
Masih banyak yang bisa dipelajari dari foto-foto ini. Jelas bahwa ketika beberapa atom berada di dalam (salah satu) kotak, ada kemungkinan lebih besar bahwa setengah dari mereka secara tidak sengaja dapat berkelompok jauh ke kedua sisi. Ketika jumlah atom bertambah, potensi ketidakseimbangan ekstrem berkurang. Untuk melacak ini, saya mengambil "film" - serangkaian panjang 5000 frame - untuk kotak melengkung diisi dengan , lalu dengan , lalu , dan akhirnya dengan atom, dan mencatat median. Berikut adalah histogram dari posisi median:15 75 3753 15 75 375
Jelas, untuk jumlah atom yang cukup besar, distribusi posisi median mereka mulai terlihat berbentuk lonceng dan tumbuh lebih sempit: yang terlihat seperti hasil Teorema Limit Sentral, bukan?
Hasil Kuantitatif
"Kotak," tentu saja, menggambarkan kepadatan probabilitas dari beberapa distribusi: puncaknya adalah grafik fungsi kepadatan (PDF). Dengan demikian area mewakili probabilitas. Menempatkan poin secara acak dan independen dalam sebuah kotak dan mengamati posisi horizontal mereka adalah salah satu cara untuk mengambil sampel dari distribusi. (Ini adalah ide di balik sampel penolakan. )n
Sosok berikutnya menghubungkan ide-ide ini.
Ini terlihat rumit, tetapi sebenarnya sangat sederhana. Ada empat plot terkait di sini:
Plot teratas menunjukkan PDF dari suatu distribusi bersama dengan satu sampel acak berukuran . Nilai lebih besar dari median ditampilkan sebagai titik putih; nilai kurang dari median sebagai titik hitam. Tidak perlu skala vertikal karena kita tahu total area adalah satu.n
Plot tengah adalah fungsi distribusi kumulatif untuk distribusi yang sama: ia menggunakan ketinggian untuk menunjukkan probabilitas. Ini berbagi sumbu horizontal dengan plot pertama. Sumbu vertikalnya harus dari ke karena mewakili probabilitas.10 1
Plot kiri dimaksudkan untuk dibaca miring: ini adalah PDF dari distribusi Beta . Ini menunjukkan bagaimana median dalam kotak akan bervariasi, ketika median diukur dalam hal area di sebelah kiri dan kanan tengah (daripada diukur dengan posisi horizontal). Saya telah menggambar titik acak dari PDF ini, seperti yang ditunjukkan, dan menghubungkannya dengan garis putus-putus horisontal ke lokasi yang sesuai pada CDF asli: ini adalah bagaimana volume (diukur di sebelah kiri) dikonversi ke posisi (diukur di atas, tengah , dan grafik bawah). Salah satu poin ini sebenarnya sesuai dengan median yang ditunjukkan dalam plot teratas; Saya telah menggambar garis vertikal yang solid untuk menunjukkan itu.16(n/2+1,n/2+1) 16
Plot bawah adalah kerapatan sampel median, yang diukur dengan posisi horizontal. Ini diperoleh dengan mengkonversi area (di plot kiri) ke posisi. Rumus konversi diberikan oleh invers CDF asli: ini hanyalah definisi dari invers CDF! (Dengan kata lain, CDF mengubah posisi menjadi area ke kiri; CDF terbalik mengkonversi kembali dari area ke posisi.) Saya telah merencanakan garis putus-putus vertikal yang menunjukkan bagaimana titik acak dari plot kiri dikonversi menjadi titik acak dalam plot bawah . Proses membaca melintasi dan kemudian turun ini memberi tahu kita cara berpindah dari satu area ke area lain.
Misalkan adalah CDF dari distribusi asli (plot tengah) dan CDF dari distribusi Beta. Untuk menemukan kemungkinan bahwa median terletak di sebelah kiri beberapa posisi , pertama-tama gunakan untuk mendapatkan area di sebelah kiri dalam kotak: ini adalah itu sendiri. Distribusi Beta di sebelah kiri memberi tahu kita kemungkinan bahwa setengah atom akan terletak di dalam volume ini, menghasilkan : ini adalah CDF dari posisi tengah . Untuk menemukan PDF-nya (seperti yang ditunjukkan di plot bawah), ambil turunannya:F G x F x F(x) G(F(x))
di mana adalah PDF (plot teratas) dan adalah Beta Beta (plot kiri).f g
Ini adalah formula tepat untuk distribusi median untuk setiap distribusi kontinu. (Dengan sedikit perhatian dalam interpretasi dapat diterapkan untuk distribusi apa pun, baik kontinu atau tidak.)
Hasil Asimptotik
Ketika sangat besar dan tidak memiliki lompatan di median nya, median sampel harus bervariasi erat di sekitar benar median distribusi. Juga dengan asumsi PDF adalah kontinu dekat , dalam rumus sebelumnya tidak akan banyak berubah dari nilainya di diberikan oleh Selain itu, tidak akan banyak berubah dari nilainya di sana: ke urutan pertama,n F μ f μ f(x) μ, f(μ). F
Dengan demikian, dengan pendekatan yang terus meningkat seiring tumbuh besar,n
Itu hanyalah pergeseran lokasi dan skala distribusi Beta. Pembalikan dengan akan membagi variansnya dengan (yang lebih baik bukan nol!). Kebetulan, varian Beta sangat dekat dengan .f(μ) f(μ)2 (n/2+1,n/2+1) n/4
Analisis ini dapat dilihat sebagai aplikasi Metode Delta .
Akhirnya, Beta kira-kira Normal untuk besar . Ada banyak cara untuk melihatnya; mungkin yang paling sederhana adalah dengan melihat logaritma PDFnya di dekat :(n/2+1,n/2+1) n 1/2
(Konstanta dan hanya menormalkan area total menjadi satu.) Melalui urutan ketiga dalam maka, ini sama dengan log dari Normal PDF dengan varian (Argumen ini dibuat ketat dengan menggunakan fungsi penghasil karakteristik atau kumulan alih-alih log dari PDF.)C C′ x, 1/(4n).
Secara keseluruhan, kami menyimpulkan itu
Distribusi median sampel memiliki varian sekitar ,1/(4nf(μ)2)
dan kira-kira Normal untuk besar ,n
semua asalkan PDF adalah kontinu dan bukan nol di medianf μ.
sumber
R
, mungkin menggunakanlayout
, tetapi sebenarnya itu dilakukan dengan Mathematica 9.@EngrStudent menerangi jawaban memberitahu kita bahwa kita harus mengharapkan hasil yang berbeda ketika distribusi kontinu , dan ketika itu diskrit (grafik "merah", di mana distribusi asimptotik dari median sampel gagal secara spektakuler untuk terlihat seperti normal, sesuai dengan distribusi Binomial (3), Geometris (11), Hypergeometrik (12), Binomial Negatif (14), Poisson (18), Uniform Discrete (22).
Dan memang inilah masalahnya. Ketika distribusinya terpisah, banyak hal menjadi rumit. Saya akan memberikan bukti untuk Absolutely Continuous Case, pada dasarnya melakukan tidak lebih dari merinci jawaban yang sudah diberikan oleh @Glen_b, dan kemudian saya akan membahas sedikit apa yang terjadi ketika distribusinya terpisah, menyediakan juga referensi terbaru bagi siapa pun yang tertarik dengan penyelaman di.
DISTRIBUSI TERUS MENERUS{X1,...Xn} FX(x)=P(Xi≤x) F′X(x)=fX(x) Zi≡I{Xi≤x} I{} Zi E(Zi)=E(I{Xi≤x})=P(Xi≤x)=FX(x),Var(Zi)=FX(x)[1−FX(x)],∀i
Mempertimbangkan koleksi variabel acak yang benar-benar kontinu dengan fungsi distribusi (cdf) dan fungsi kepadatan . Tentukan mana adalah fungsi indikator. Karenanya adalah Bernoulli rv, dengan
Biarkan menjadi mean sampel dari iid Bernoullis ini, yang didefinisikan untuk tetap sebagai yang berarti Teorema Limit Pusat berlaku dan kami memilikiYn(x) x Yn(x)=1n∑i=1nZi E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1−FX(x)]
Perhatikan bahwa yaitu tidak lain dari fungsi distribusi empiris. Dengan menerapkan "Metode Delta" kami memiliki itu untuk fungsi kontinu dan terdiferensiasi dengan turunan tidak nol pada titik yang diinginkan, kami memperolehYn(x)=F^n(x) g(t) g′(t)
Sekarang, pilih di mana menunjukkan fungsi invers. Ini adalah fungsi kontinu dan dapat dibedakan (karena adalah), dan oleh Teorema Fungsi Balik kita memilikig(t)≡F−1X(t),t∈(0,1) −1 FX(x)
Memasukkan hasil ini pada dalam delta-metode yang diperoleh hasil asimptotik yang kita milikig
dan menyederhanakan,
.. untuk tetap . Sekarang atur , median (benar) populasi. Kemudian kita memiliki dan hasil umum di atas menjadi, untuk kasus yang menarik,x x=m FX(m)=1/2
Tetapi menyatu dengan median sampel . Hal ini karenaF−1X(F^n(m)) m^
Sisi kanan ketidaksetaraan menyatu dengan dan terkecil yang akhirnya , adalah median sampel.1/2 x FX≥1/2
Jadi kita dapatkan
DISTRIBUSI DISKRET
Ketika distribusinya diskrit (atau ketika sampel mengandung ikatan), telah diperdebatkan bahwa definisi "klasik" dari sampel kuantil, dan karenanya dari median juga, mungkin menyesatkan pada awalnya , karena konsep teoretis menjadi digunakan untuk mengukur apa yang seseorang coba ukur dengan kuantil.
Bagaimanapun juga telah disimulasikan bahwa di bawah definisi klasik ini (yang kita semua tahu), distribusi asimptotik dari median sampel adalah non-normal dan distribusi diskrit.
Definisi alternatif kuantil sampel adalah dengan menggunakan konsep fungsi "mid-distribution", yang didefinisikan sebagaiFmid(x)=P(X≤x)−12P(X=x)
Definisi sampel kuantil melalui konsep fungsi mid-distribusi dapat dilihat sebagai generalisasi yang dapat mencakup sebagai kasus khusus distribusi kontinu, tetapi juga, yang tidak terlalu kontinu juga.
Untuk kasus distribusi diskrit, antara hasil lainnya, telah ditemukan bahwa median sampel sebagaimana didefinisikan melalui konsep ini memiliki distribusi normal asimptotik dengan ... varians tampak rumit.
Sebagian besar dari ini adalah hasil terbaru. Rujukannya adalah Ma, Y., Genton, MG, & Parzen, E. (2011). Sifat asimptotik dari sampel kuantil dari distribusi diskrit. Sejarah Institut Matematika Statistik, 63 (2), 227-243. , di mana orang dapat menemukan diskusi dan tautan ke literatur yang relevan yang lebih tua.
sumber
Ya itu, dan bukan hanya untuk median, tetapi untuk kuantil sampel apa pun. Menyalin dari makalah ini , yang ditulis oleh TS Ferguson, seorang profesor di UCLA (halamannya ada di sini ), yang secara menarik membahas distribusi bersama mean sampel dan kuantil sampel, kami memiliki:
Biarkan menjadi iid dengan fungsi distribusi , densitas , mean dan varian terbatas . Misalkan dan biarkan menunjukkan -th quantile dari , sehingga . Asumsikan bahwa kerapatan kontinu dan positif pada . Biarkan menunjukkan sampel -th quantile. KemudianX1,...,Xn F(x) f(x) μ σ2 0<p<1 xp p F F(xp)=p f(x) xp Yn=X(n:⌈np⌉) p
Untuk (median), dan Anda memiliki CLT untuk median,p=1/2⇒xp=m
sumber
Saya suka jawaban analitik yang diberikan oleh Glen_b. Itu jawaban yang bagus.
Perlu gambar. Saya suka gambar.
Berikut ini beberapa area elastisitas dalam menjawab pertanyaan:
Untuk standar normal, saya menggunakan kode MatLab berikut:
dan saya mendapat plot berikut sebagai output:
Jadi mengapa tidak melakukan ini untuk 22 "distribusi" bawaan lainnya, kecuali menggunakan prob-plot (di mana garis lurus berarti sangat normal)?
Dan di sini adalah kode sumber untuk itu:
Ketika saya melihat bukti analitik saya mungkin berpikir "dalam teori mereka semua mungkin cocok" tetapi ketika saya mencobanya maka saya bisa marah bahwa dengan "ada beberapa cara ini tidak berfungsi dengan baik, sering melibatkan diskrit atau sangat terbatas nilai "dan ini mungkin membuat saya ingin lebih berhati-hati dalam menerapkan teori pada apa pun yang membutuhkan biaya.
Semoga berhasil.
sumber