Saya telah menghasilkan vektor yang memiliki distribusi Poisson, sebagai berikut:
x = rpois(1000,10)
Jika saya membuat histogram menggunakan hist(x)
, distribusi terlihat seperti distribusi normal berbentuk lonceng yang sudah dikenal. Namun, tes Kolmogorov-Smirnoff menggunakan ks.test(x, 'pnorm',10,3)
mengatakan distribusi secara signifikan berbeda dengan distribusi normal, karena p
nilai yang sangat kecil .
Jadi pertanyaan saya adalah: bagaimana distribusi Poisson berbeda dari distribusi normal, ketika histogram terlihat sangat mirip dengan distribusi normal?
Jawaban:
Distribusi Poisson adalah diskrit sedangkan distribusi normal kontinu, dan variabel acak Poisson selalu> = 0. Dengan demikian, uji Kolgomorov-Smirnov akan sering dapat membedakannya.
Ketika rata-rata distribusi Poisson besar, itu menjadi mirip dengan distribusi normal. Namun,
rpois(1000, 10)
bahkan tidak terlihat yang mirip dengan distribusi normal (berhenti pendek pada 0 dan ekor yang tepat terlalu panjang).Mengapa Anda membandingkannya dengan10−−√
ks.test(..., 'pnorm', 10, 3)
bukanks.test(..., 'pnorm', 10, sqrt(10))
? Perbedaan antara 3 dan kecil tetapi akan dengan sendirinya membuat perbedaan ketika membandingkan distribusi. Bahkan jika distribusinya benar-benar normal, Anda akan berakhir dengan distribusi nilai-p anti-konservatif:sumber
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
menunjukkan bahwa tes yang membandingkan dua distribusi Poisson yang identik akan terlalu konservatif.Berikut ini cara yang lebih mudah untuk memahaminya:
Anda dapat melihat distribusi Binomial sebagai "ibu" dari sebagian besar distribusi. Distribusi normal hanyalah perkiraan distribusi Binomial ketika n menjadi cukup besar. Faktanya, Abraham de Moivre pada dasarnya menemukan distribusi normal ketika mencoba memperkirakan distribusi Binomial karena dengan cepat keluar dari tangan untuk menghitung distribusi Binomial ketika n tumbuh terutama ketika Anda tidak memiliki komputer ( referensi ).
Distribusi poisson juga hanya perkiraan lain dari distribusi Binomial tetapi ia memegang jauh lebih baik daripada distribusi normal ketika n besar dan p kecil, atau lebih tepatnya ketika rata-rata hampir sama dengan varians (ingat bahwa untuk distribusi Binomial, rata-rata = np dan var = np (1-p)) ( referensi ). Mengapa situasi khusus ini begitu penting? Tampaknya itu banyak muncul di dunia nyata dan itulah mengapa kita memiliki pendekatan "khusus" ini. Contoh di bawah ini menggambarkan skenario di mana pendekatan Poisson bekerja sangat hebat.
Contoh
Kami memiliki pusat data 100.000 komputer. Probabilitas komputer mana pun yang gagal saat ini adalah 0,001. Jadi rata-rata np = 100 komputer gagal di pusat data. Berapa probabilitas bahwa hanya 50 komputer akan gagal hari ini?
Faktanya, kualitas perkiraan untuk distribusi normal turun saat kita berada di ujung distribusi tetapi Poisson terus bertahan dengan sangat baik. Dalam contoh di atas, mari kita pertimbangkan berapa probabilitas bahwa hanya 5 komputer akan gagal hari ini?
Semoga ini memberi Anda pemahaman intuitif yang lebih baik dari 3 distribusi ini.
sumber
Saya pikir layak menyebutkan bahwa Poisson ( ) pmf adalah pmf pembatas dari Binomial ( , ) dengan .n p n p n = λ / nλ n pn pn=λ/n
Satu perkembangan yang agak panjang dapat ditemukan di blog ini .
Tapi, kita bisa membuktikannya secara ekonomis di sini. Jika maka untuk fixXn∼Binomial(n,λ/n) k
Istilah pertama dan terakhir mudah terlihat konvergen ke 1 sebagai (mengingat bahwa sudah diperbaiki). Jadi, sebagai since .k P ( X n = k ) → e - λ λ kn→∞ k n → ∞ ( 1 - λ / n ) n → e - λ
Selain itu, seseorang memiliki perkiraan normal terhadap Binomial, yaitu Binomial ( , ) . Perkiraan meningkat sebagai dan tetap jauh dari 0 dan 1. Jelas untuk rezim Poisson ini tidak terjadi (karena ada ) tetapi semakin besar adalah semakin besar dapat dan masih memiliki perkiraan normal yang wajar.n p ≊dN(np,np(1−p)) n→∞ p pn=λ/n→0 λ n
sumber