Mengapa rata-rata nilai tertinggi dari 100 menarik dari distribusi normal berbeda dari persentil 98% dari distribusi normal? Tampaknya secara definisi mereka harus sama. Tapi...
Kode dalam R:
NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)
Saya membayangkan bahwa saya salah memahami sesuatu tentang apa yang seharusnya 100 menarik dari distribusi normal seharusnya. Seperti yang ditunjukkan oleh distribusi asimetris nilai maksimum yang tidak terduga.
r
distributions
maximum
russellpierce
sumber
sumber
Saya bertanya tentang mengapa ada perbedaan antara rata-rata maksimum 100 undian dari distribusi normal acak dan persentil ke-98 dari distribusi normal. Jawaban yang saya terima dari Rob Hyndman sebagian besar dapat diterima, tetapi terlalu teknis untuk menerima tanpa revisi. Saya bertanya-tanya apakah mungkin untuk memberikan jawaban yang menjelaskan dalam bahasa sederhana yang dimengerti secara intuisi mengapa kedua nilai ini tidak sama.
Pada akhirnya, jawaban saya mungkin tidak memuaskan; tetapi secara konseptual, alasan max (rnorm (100)) cenderung lebih tinggi daripada qnorm (0,98) adalah, singkatnya, karena rata-rata skor tertinggi 100 acak yang didistribusikan secara normal kadang-kadang akan melebihi nilai yang diharapkan. Namun distorsi ini tidak simetris, karena ketika skor rendah ditarik, mereka tidak mungkin menjadi yang tertinggi dari 100 skor. Setiap undian independen adalah peluang baru untuk melampaui nilai yang diharapkan, atau diabaikan karena nilai yang diperoleh tidak maksimal dari 100 nilai yang ditarik. Untuk demonstrasi visual membandingkan histogram maksimum 20 nilai dengan histogram maksimum 100 nilai, perbedaan kemiringan, terutama di bagian ekor, sangat mencolok.
Saya sampai pada jawaban ini secara tidak langsung ketika sedang mengerjakan masalah / pertanyaan terkait yang telah saya tanyakan di komentar. Secara khusus, jika saya menemukan bahwa nilai tes seseorang berada di peringkat dalam persentil ke-95, saya akan berharap bahwa rata-rata jika saya menempatkan mereka di ruangan dengan 99 peserta tes yang rata-rata peringkat mereka menjadi 95. Ini ternyata menjadi kurang lebih kasing (kode R) ...
Sebagai perpanjangan dari logika itu, saya juga berharap bahwa jika saya mengambil 100 orang di sebuah ruangan dan memilih orang dengan skor tertinggi ke-95, kemudian mengambil 99 orang lain dan meminta mereka mengambil tes yang sama, bahwa rata - rata orang yang dipilih akan peringkat 95 di grup baru. Tapi ini tidak terjadi (kode R) ...
Apa yang membuat kasus pertama berbeda dari kasus kedua adalah bahwa dalam kasus pertama skor individu menempatkan mereka pada persentil ke-95. Dalam kasus kedua skor mereka mungkin berubah menjadi sedikit lebih tinggi atau lebih rendah daripada persentil ke-95 yang sebenarnya. Karena mereka tidak mungkin peringkat lebih tinggi dari 100, kelompok-kelompok yang menghasilkan skor peringkat 95 yang sebenarnya pada persentil ke-99 atau lebih tinggi tidak dapat mengimbangi (dalam hal peringkat rata-rata) kasus-kasus di mana skor peringkat 95 jauh lebih rendah daripada yang ke-90 yang sebenarnya. persentil. Jika Anda melihat histogram untuk dua vektor peringkat yang disediakan dalam jawaban ini, mudah untuk melihat bahwa ada batasan kisaran di ujung atas yang merupakan konsekuensi dari proses ini yang telah saya jelaskan.
sumber
Ada dua masalah: satu adalah kemiringan dalam distribusi nilai teratas yang telah Anda identifikasi; yang lainnya adalah Anda tidak harus melihat persentil ke-98.
Alih-alih nilai rata-rata tertinggi, pertimbangkan median. Ini lebih mudah karena merupakan statistik pesanan. Probabilitas bahwa semua 100 nilai lebih kecil dari kuantil adalah sehingga median kuantil untuk maksimum adalah ketika , yaitu , lebih dari . Tetapi karena kemiringannya, Anda akan mengharapkan rerata masih lebih tinggi.q q100 q100=12 q=121/100≈0.99309 0.98
Sebagai ilustrasi dalam R
pemberian yang mana
sumber
Hanya untuk sedikit memperluas jawaban Rob, anggaplah kita ingin mengetahui fungsi distribusi kumulatif (CDF) dari nilai tertinggi dari undian independen dari distribusi normal standar, . Sebut nilai tertinggi ini , statistik orde pertama. Maka CDF adalah:N X1,...,XN Y1
Rob menggunakan notasi standar yang didefinisikan sebagai untuk standar normal --- yaitu, adalah CDF normal standar.Φ(x) P(X<x) Φ(x)
Fungsi kepadatan probabilitas (PDF) dari statistik orde pertama hanyalah turunan dari CDF sehubungan dengan : CDF di dinaikkan menjadi 99 (yaitu, ) kali PDF pada kali 100 (yaitu, ).X
sumber