Apa perbedaan distribusi Poisson dengan distribusi normal?

29

Saya telah menghasilkan vektor yang memiliki distribusi Poisson, sebagai berikut:

x = rpois(1000,10)

Jika saya membuat histogram menggunakan hist(x), distribusi terlihat seperti distribusi normal berbentuk lonceng yang sudah dikenal. Namun, tes Kolmogorov-Smirnoff menggunakan ks.test(x, 'pnorm',10,3)mengatakan distribusi secara signifikan berbeda dengan distribusi normal, karena pnilai yang sangat kecil .

Jadi pertanyaan saya adalah: bagaimana distribusi Poisson berbeda dari distribusi normal, ketika histogram terlihat sangat mirip dengan distribusi normal?

luciano
sumber
Juga (sebagai tambahan untuk jawaban David): baca ini ( stats.stackexchange.com/a/2498/603 ) dan atur ukuran sampel Anda menjadi 100 dan lihat perbedaannya.
user603

Jawaban:

20
  1. Distribusi Poisson adalah diskrit sedangkan distribusi normal kontinu, dan variabel acak Poisson selalu> = 0. Dengan demikian, uji Kolgomorov-Smirnov akan sering dapat membedakannya.

  2. Ketika rata-rata distribusi Poisson besar, itu menjadi mirip dengan distribusi normal. Namun, rpois(1000, 10)bahkan tidak terlihat yang mirip dengan distribusi normal (berhenti pendek pada 0 dan ekor yang tepat terlalu panjang).

  3. Mengapa Anda membandingkannya dengan ks.test(..., 'pnorm', 10, 3)bukan ks.test(..., 'pnorm', 10, sqrt(10))? Perbedaan antara 3 dan kecil tetapi akan dengan sendirinya membuat perbedaan ketika membandingkan distribusi. Bahkan jika distribusinya benar-benar normal, Anda akan berakhir dengan distribusi nilai-p anti-konservatif:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

masukkan deskripsi gambar di sini

David Robinson
sumber
3
Seringkali orang akan melihat sesuatu yang samar-samar simetris dan menganggapnya "normal." Saya curiga apa yang dilihat @Ross.
Fraijo
2
Perhatikan bahwa uji KS umumnya mengasumsikan distribusi kontinu, jadi mengandalkan nilai p yang dilaporkan dalam kasus ini mungkin (juga) agak mencurigakan.
kardinal
1
Benar: berlari hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))menunjukkan bahwa tes yang membandingkan dua distribusi Poisson yang identik akan terlalu konservatif.
David Robinson
@Fraijo: memang. Kami memiliki pertanyaan yang lebih umum tentang tema ini: Jika histogram saya menunjukkan kurva berbentuk lonceng, dapatkah saya mengatakan bahwa data saya terdistribusi secara normal?
Silverfish
17

Berikut ini cara yang lebih mudah untuk memahaminya:

Anda dapat melihat distribusi Binomial sebagai "ibu" dari sebagian besar distribusi. Distribusi normal hanyalah perkiraan distribusi Binomial ketika n menjadi cukup besar. Faktanya, Abraham de Moivre pada dasarnya menemukan distribusi normal ketika mencoba memperkirakan distribusi Binomial karena dengan cepat keluar dari tangan untuk menghitung distribusi Binomial ketika n tumbuh terutama ketika Anda tidak memiliki komputer ( referensi ).

Distribusi poisson juga hanya perkiraan lain dari distribusi Binomial tetapi ia memegang jauh lebih baik daripada distribusi normal ketika n besar dan p kecil, atau lebih tepatnya ketika rata-rata hampir sama dengan varians (ingat bahwa untuk distribusi Binomial, rata-rata = np dan var = np (1-p)) ( referensi ). Mengapa situasi khusus ini begitu penting? Tampaknya itu banyak muncul di dunia nyata dan itulah mengapa kita memiliki pendekatan "khusus" ini. Contoh di bawah ini menggambarkan skenario di mana pendekatan Poisson bekerja sangat hebat.

Contoh

Kami memiliki pusat data 100.000 komputer. Probabilitas komputer mana pun yang gagal saat ini adalah 0,001. Jadi rata-rata np = 100 komputer gagal di pusat data. Berapa probabilitas bahwa hanya 50 komputer akan gagal hari ini?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

Faktanya, kualitas perkiraan untuk distribusi normal turun saat kita berada di ujung distribusi tetapi Poisson terus bertahan dengan sangat baik. Dalam contoh di atas, mari kita pertimbangkan berapa probabilitas bahwa hanya 5 komputer akan gagal hari ini?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Semoga ini memberi Anda pemahaman intuitif yang lebih baik dari 3 distribusi ini.

Shital Shah
sumber
Sungguh jawaban yang luar biasa dan hebat! Terima kasih banyak. :)
Bora M. Alper
11

Saya pikir layak menyebutkan bahwa Poisson ( ) pmf adalah pmf pembatas dari Binomial ( , ) dengan .n p n p n = λ / nλnpnpn=λ/n

Satu perkembangan yang agak panjang dapat ditemukan di blog ini .

Tapi, kita bisa membuktikannya secara ekonomis di sini. Jika maka untuk fixXnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

Istilah pertama dan terakhir mudah terlihat konvergen ke 1 sebagai (mengingat bahwa sudah diperbaiki). Jadi, sebagai since .k P ( X n = k ) e - λ λ knkn ( 1 - λ / n ) ne - λ

P(Xn=k)eλλkk!,
n(1λ/n)neλ

Selain itu, seseorang memiliki perkiraan normal terhadap Binomial, yaitu Binomial ( , ) . Perkiraan meningkat sebagai dan tetap jauh dari 0 dan 1. Jelas untuk rezim Poisson ini tidak terjadi (karena ada ) tetapi semakin besar adalah semakin besar dapat dan masih memiliki perkiraan normal yang wajar.npdN(np,np(1p))nppn=λ/n0λn

muratoa
sumber
(+1) Selamat datang di situs ini. Saya telah membuat beberapa pengeditan; periksa apakah saya belum memasukkan kesalahan dalam proses. Saya tidak yakin apa yang harus saya lakukan dengan kalimat terakhir dalam kalimat terakhir. Beberapa klarifikasi tambahan mungkin bisa membantu.
kardinal
1
Saya suka arah ini, meskipun mungkin ada cara untuk mengaitkannya sedikit lebih dekat dengan pertanyaan yang ada dengan membuat hubungan antara tiga distribusi lebih jelas. Misalnya (a) Variabel acak binomial (urutan) bertindak seperti Poisson selama , (b) Binomial (urutan) bertindak seperti normal selama kira-kira konstan konstan dan (c) ) a Poisson (urutan) bertindak seperti normal untuk pada dasarnya karena sifatnya yang tak terbatas. npnλpλ
kardinal
1
Komentar yang bagus @kartinal. Tentang kalimat terakhir, untuk fix, besar semakin besar semakin besar (mis. Lebih dekat dengan ) Oleh karena itu semakin baik perkiraan Normal ke Binomial dan pada gilirannya Poisson. nλpn1/2
muratoa
Terima kasih. Saya mengerti apa yang ingin Anda katakan sekarang. Saya umumnya setuju, dengan peringatan bahwa beberapa perawatan perlu dilakukan dengan hubungan antara parameter, yang dianggap tetap dan yang berbeda dengan yang lainnya. :)
kardinal
Hai Murat dan selamat datang di situs ini! senang melihatmu di sini dan kuharap kau tetap disini. 1 untuk menjelaskan mengapa histogram poisson tampak sangat mirip dengan normal ketika besar. λ
Makro