Mengapa rata-rata nilai tertinggi dari 100 menarik dari distribusi normal berbeda dari persentil ke-98 dari distribusi normal?

8

Mengapa rata-rata nilai tertinggi dari 100 menarik dari distribusi normal berbeda dari persentil 98% dari distribusi normal? Tampaknya secara definisi mereka harus sama. Tapi...

Kode dalam R:

NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
    x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)

Saya membayangkan bahwa saya salah memahami sesuatu tentang apa yang seharusnya 100 menarik dari distribusi normal seharusnya. Seperti yang ditunjukkan oleh distribusi asimetris nilai maksimum yang tidak terduga.

russellpierce
sumber

Jawaban:

10

Maksimum tidak memiliki distribusi normal. Cdf-nya adalah mana adalah cdf normal standar. Secara umum momen-momen distribusi ini sulit diperoleh secara analitis. Ada tulisan kuno tentang ini oleh Tippett ( Biometrika , 1925) .Φ(x)100Φ(x)

Rob Hyndman
sumber
Apakah ada cara untuk mengekspresikan dalam bahasa sederhana apa perbedaan antara persentil yang diberikan dan maksimum nilai N? Dari perspektif awam, sulit untuk melihat mengapa titik data yang berasal dari persentil (Y) yang diberikan tidak akan diharapkan (rata-rata) sama dengan pencetak gol terbanyak dari grup 100 / Y. Misalnya, jika saya menemukan bahwa jawaban Anda diberi peringkat dalam persentil ke-90, saya berharap bahwa jawaban Anda biasanya akan menjadi jawaban teratas di antara kelompok 10 jawaban yang dipilih secara acak.
russellpierce
4
@drknexus Intuisi Anda benar. Namun, ekstrem (dan hampir ekstrem) dari distribusi sampel agak istimewa: nilainya dibatasi oleh massa data di satu sisi, sedangkan - untuk distribusi induk dengan ekor tak terbatas - tidak ada kendala sama sekali pada mereka. nilai di sisi lain. Jadi, misalnya, distribusi maksimum (dari distribusi tanpa batas atas) condong positif. Ini meningkatkan ekspektasinya relatif terhadap persentil yang sesuai.
whuber
2

Saya bertanya tentang mengapa ada perbedaan antara rata-rata maksimum 100 undian dari distribusi normal acak dan persentil ke-98 dari distribusi normal. Jawaban yang saya terima dari Rob Hyndman sebagian besar dapat diterima, tetapi terlalu teknis untuk menerima tanpa revisi. Saya bertanya-tanya apakah mungkin untuk memberikan jawaban yang menjelaskan dalam bahasa sederhana yang dimengerti secara intuisi mengapa kedua nilai ini tidak sama.

Pada akhirnya, jawaban saya mungkin tidak memuaskan; tetapi secara konseptual, alasan max (rnorm (100)) cenderung lebih tinggi daripada qnorm (0,98) adalah, singkatnya, karena rata-rata skor tertinggi 100 acak yang didistribusikan secara normal kadang-kadang akan melebihi nilai yang diharapkan. Namun distorsi ini tidak simetris, karena ketika skor rendah ditarik, mereka tidak mungkin menjadi yang tertinggi dari 100 skor. Setiap undian independen adalah peluang baru untuk melampaui nilai yang diharapkan, atau diabaikan karena nilai yang diperoleh tidak maksimal dari 100 nilai yang ditarik. Untuk demonstrasi visual membandingkan histogram maksimum 20 nilai dengan histogram maksimum 100 nilai, perbedaan kemiringan, terutama di bagian ekor, sangat mencolok.

Saya sampai pada jawaban ini secara tidak langsung ketika sedang mengerjakan masalah / pertanyaan terkait yang telah saya tanyakan di komentar. Secara khusus, jika saya menemukan bahwa nilai tes seseorang berada di peringkat dalam persentil ke-95, saya akan berharap bahwa rata-rata jika saya menempatkan mereka di ruangan dengan 99 peserta tes yang rata-rata peringkat mereka menjadi 95. Ini ternyata menjadi kurang lebih kasing (kode R) ...

for (i in 1:NSIM)
{
    rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)

Sebagai perpanjangan dari logika itu, saya juga berharap bahwa jika saya mengambil 100 orang di sebuah ruangan dan memilih orang dengan skor tertinggi ke-95, kemudian mengambil 99 orang lain dan meminta mereka mengambil tes yang sama, bahwa rata - rata orang yang dipilih akan peringkat 95 di grup baru. Tapi ini tidak terjadi (kode R) ...

for (i in 1:NSIM)
{
    testtakers <- rnorm(100)
    testtakers <- testtakers[order(testtakers)]
    testtakers <- testtakers[order(testtakers)]
    ranked95 <- testtakers[95]
    rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)

Apa yang membuat kasus pertama berbeda dari kasus kedua adalah bahwa dalam kasus pertama skor individu menempatkan mereka pada persentil ke-95. Dalam kasus kedua skor mereka mungkin berubah menjadi sedikit lebih tinggi atau lebih rendah daripada persentil ke-95 yang sebenarnya. Karena mereka tidak mungkin peringkat lebih tinggi dari 100, kelompok-kelompok yang menghasilkan skor peringkat 95 yang sebenarnya pada persentil ke-99 atau lebih tinggi tidak dapat mengimbangi (dalam hal peringkat rata-rata) kasus-kasus di mana skor peringkat 95 jauh lebih rendah daripada yang ke-90 yang sebenarnya. persentil. Jika Anda melihat histogram untuk dua vektor peringkat yang disediakan dalam jawaban ini, mudah untuk melihat bahwa ada batasan kisaran di ujung atas yang merupakan konsekuensi dari proses ini yang telah saya jelaskan.

russellpierce
sumber
2

Ada dua masalah: satu adalah kemiringan dalam distribusi nilai teratas yang telah Anda identifikasi; yang lainnya adalah Anda tidak harus melihat persentil ke-98.

Alih-alih nilai rata-rata tertinggi, pertimbangkan median. Ini lebih mudah karena merupakan statistik pesanan. Probabilitas bahwa semua 100 nilai lebih kecil dari kuantil adalah sehingga median kuantil untuk maksimum adalah ketika , yaitu , lebih dari . Tetapi karena kemiringannya, Anda akan mengharapkan rerata masih lebih tinggi.qq100q100=12q=121/1000.993090.98

Sebagai ilustrasi dalam R

require(matrixStats)
NSIM <- 100001
cases <- 100
set.seed(1)
simmat <- matrix(rnorm(cases*NSIM), ncol=cases)
tops <- rowMaxs(simmat)
c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))

pemberian yang mana

> c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
[1] 2.508940 2.464794 2.462038
> c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
[1] 0.9939453 0.9931454 0.9930925
Henry
sumber
1

Hanya untuk sedikit memperluas jawaban Rob, anggaplah kita ingin mengetahui fungsi distribusi kumulatif (CDF) dari nilai tertinggi dari undian independen dari distribusi normal standar, . Sebut nilai tertinggi ini , statistik orde pertama. Maka CDF adalah:NX1,...,XNY1

P(Y1<x)=P(max(X1,...,XN)<x)=P(X1<x,...,XN<x)=P(X1<x)P(XN<x)=P(X<x)100,
mana baris kedua mengikuti dengan independensi dari menarik. Kita juga dapat menulis ini sebagai mana mewakili CDF dan mewakili PDF dari variabel acak yang diberikan sebagai subskrip ke fungsi ini.
FY1(x)=FX(x)100,
Ff

Rob menggunakan notasi standar yang didefinisikan sebagai untuk standar normal --- yaitu, adalah CDF normal standar.Φ(x)P(X<x) Φ(x)

Fungsi kepadatan probabilitas (PDF) dari statistik orde pertama hanyalah turunan dari CDF sehubungan dengan : CDF di dinaikkan menjadi 99 (yaitu, ) kali PDF pada kali 100 (yaitu, ).X

fY1(x)=100FX(x)99fX(x)
xN1xN
Charlie
sumber
Tampaknya ada sesuatu yang salah dengan persamaan akhir Anda (saya memperbaiki pengaturan huruf tetapi menerjemahkannya persis seperti yang Anda miliki sebelumnya). Apa itu ? Juga, pdf dari tidak setara dengan . Bahkan, jika memiliki distribusi normal (atau distribusi kontinu) maka setiap , sehingga tidak mungkin menjadi pdf. X1XP(X=x)XP(X=x)=0x
Makro
@ Macro, adalah undian pertama dari undian independen; adalah statistik urutan pertama (Anda mungkin lebih suka menulis sebagai gantinya). Saya membuat notasi lebih tepat dalam menanggapi komentar Anda yang lain. X1NY1X(1)
Charlie