Secara intuitif memahami mengapa distribusi Poisson adalah kasus pembatas distribusi binomial

14

Dalam "Analisis Data" oleh DS Sivia, ada derivasi dari distribusi Poisson, dari distribusi binomial.

Mereka berpendapat bahwa distribusi Poisson adalah kasus terbatas dari distribusi binomial ketika M , di mana M adalah jumlah percobaan.

Pertanyaan 1: Bagaimana argumen itu dimengerti secara intuitif?

Pertanyaan 2: Mengapa batas besar Muntuk M!N!(MN)!sama dengan, di manaadalah jumlah keberhasilan dalampercobaan? (Langkah ini digunakan dalam derivasi.)MNN!NM

Ytsen de Boer
sumber
Ini relevan: stats.stackexchange.com/questions/180057/…
kjetil b halvorsen

Jawaban:

5

Saya akan mencoba penjelasan intuitif sederhana. Rekam bahwa untuk variabel acak binomial XBin(n,p) kita memiliki harapan adalah np dan varians adalah np(1p) . Sekarang berpikir bahwa X mencatat jumlah kejadian dalam jumlah yang sangat besar n percobaan, masing-masing dengan probabilitas yang sangat kecil p , seperti yang kita sangat dekat dengan 1p=1 (benar-benar ). Maka kita memiliki np=λkatakanlah, dan np(1p)np1=λ , sehingga mean dan varians keduanya sama dengan λ . Kemudian ingat bahwa untuk variabel acak terdistribusi poisson, kami selalu memiliki mean dan varians yang sama! Setidaknya itu adalah argumen masuk akal untuk perkiraan poisson, tetapi bukan bukti.

Kemudian lihat dari sudut pandang lain, proses titik poisson https://en.wikipedia.org/wiki/Poisson_point_process pada baris asli. Ini adalah distribusi poin acak pada baris yang kita dapatkan jika poin acak terjadi sesuai aturan:

  1. poin dalam interval disjoint adalah independen
  2. probabilitas titik acak dalam interval yang sangat pendek sebanding dengan panjang interval
  3. probabilitas dua atau lebih poin dalam interval yang sangat singkat pada dasarnya adalah nol.

Kemudian distribusi jumlah titik dalam interval yang diberikan (tidak harus pendek) adalah Poisson (dengan parameter sebanding dengan panjang). Sekarang, jika kita membagi interval ini dalam sangat banyak, subintervals yang sangat sangat pendek ( n ), probabilitas dua atau lebih poin dalam subinterval yang diberikan pada dasarnya adalah nol, sehingga angka tersebut akan memiliki, dengan perkiraan yang sangat baik, distribusi bernolli, yaitu, Bin ( 1 , p ) , jadi jumlah semua ini adalah Bin ( n , p ) , jadi perkiraan yang baik dari distribusi poisson dari sejumlah titik dalam interval (panjang) itu.λnBin(1,p)Bin(n,p)

Edit dari @Ytsen de Boer (OP): pertanyaan nomor 2 dijawab dengan memuaskan oleh @ Łukasz Grad.

kjetil b halvorsen
sumber
6

Biarkan saya memberikan heuristik alternatif. Saya akan menunjukkan bagaimana cara memperkirakan proses Poisson sebagai binomial (dan berpendapat bahwa perkiraan lebih baik untuk banyak percobaan dengan probabilitas rendah). Oleh karena itu distribusi binomial harus cenderung ke distribusi Poisson.

Katakanlah peristiwa terjadi dengan laju yang konstan dalam waktu. Kami ingin mengetahui distribusi berapa banyak peristiwa yang terjadi dalam sehari, mengetahui bahwa jumlah acara yang diharapkan adalah λ .

Nah, jumlah acara yang diharapkan per jam adalah λ/24 . Mari kita berpura-pura bahwa ini berarti bahwa probabilitas suatu peristiwa terjadi pada jam tertentu adalah λ/24 . [itu tidak sepenuhnya benar, tetapi merupakan perkiraan yang layak jika λ/241 pada dasarnya jika kita dapat mengasumsikan beberapa peristiwa tidak terjadi dalam jam yang sama]. Kemudian kita dapat memperkirakan distribusi jumlah peristiwa sebagai binomial dengan M=24 percobaan, masing-masing memiliki probabilitas keberhasilan λ/24 .

Kami meningkatkan perkiraan dengan mengalihkan interval kami ke menit. Maka p=λ/1440 dengan M=1440 percobaan. Jika λ ada, katakan 10, maka kita bisa cukup yakin bahwa tidak ada menit yang memiliki dua peristiwa.

Tentu saja akan lebih baik jika kita beralih ke detik. Sekarang kita melihat M=86400 peristiwa masing-masing dengan probabilitas kecil λ/86400 .

Tidak peduli seberapa besar Anda λ adalah, saya akhirnya bisa memilih cukup kecil Δt sedemikian rupa sehingga sangat mungkin bahwa ada dua peristiwa terjadi dalam interval yang sama. Maka distribusi binomial yang sesuai dengan Δt akan sangat cocok dengan distribusi Poisson yang sebenarnya.

Satu-satunya alasan mereka tidak persis sama adalah bahwa ada probabilitas non-nol bahwa dua peristiwa terjadi dalam interval waktu yang sama. Tetapi mengingat hanya ada sekitar λ kejadian dan mereka didistribusikan ke beberapa jumlah sampah yang jauh lebih besar dari λ , tidak mungkin ada dua dari mereka yang berada di tempat yang sama.

Atau dengan kata lain, distribusi binomial cenderung distribusi Poisson sebagai M jika probabilitas sukses p=λ/M .

Joel
sumber
5

pertanyaan 1

Ingat definisi distribusi binomial:

distribusi frekuensi dari kemungkinan jumlah hasil yang berhasil dalam sejumlah percobaan yang diberikan di mana masing-masing memiliki probabilitas keberhasilan yang sama.

Bandingkan ini dengan definisi distribusi Poisson:

distribusi frekuensi diskrit yang memberikan probabilitas sejumlah peristiwa independen terjadi dalam tetap waktu .

Perbedaan substansial antara 2 adalah binomial dalam percobaan, Poisson adalah lebih dari periode waktu t . Bagaimana batas itu terjadi secara intuitif?nt

Katakanlah bahwa Anda harus terus menjalankan uji coba Bernoulli untuk selamanya. Selain itu, Anda menjalankan per menit. Per menit Anda menghitung setiap keberhasilan. Jadi untuk selamanya Anda menjalankan proses B i n ( p , 30 ) setiap menit. Lebih dari 24 jam, Anda memiliki B i n ( p , 43200 ) .n=30Bin(p,30)Bin(p,43200)

Ketika Anda lelah, Anda ditanya "berapa banyak kesuksesan yang terjadi antara pukul 18.00 dan 19.00?". Jawaban Anda mungkin , yaitu Anda memberikan keberhasilan rata-rata dalam satu jam. Kedengarannya sangat mirip dengan parameter Poisson λ bagi saya.3060pλ


sumber
5

Pertanyaan 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

Jadi mengambil batas untuk fixed N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1
Łukasz Grad
sumber
+1. I started by looking at Stirling's approximation, but started running round in circles. You're approach is much simpler.
I dont think this is what the OP will find intuitive ...
kjetil b halvorsen
MMMkk<<M
1
@kjetilbhalvorsen Ini adalah jawaban untuk Q2 (langkah derivasi), bukan Q1 (penjelasan intuitif)
Ben Bolker
@TemplateRex Hmm but I think when proving pointwise convergence I only need to prove it for every fixed N, as M goes to infiity, isn't it? That is ωΩlimmXm(ω)X(ω)
Łukasz Grad
5

The problem is that your characterization of the Poisson as a limiting case of the binomial distribution is not quite correct as stated.

The Poisson is a limiting case of the binomial when:

MandMpλ.
The second part is important. If p remains fixed, the first condition implies that the rate will also increase without bound.

What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensity λ--but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.

To illustrate, suppose we model a series of M independent Bernoulli trials each with probability of success p, and we look at what happens to the distribution of the number of successes X as M. For any N as large as we please, and no matter how small p is, the expected number of successes E[X]=Mp>N for M>N/p. Put another way, no matter how unlikely the probability of success, eventually you can achieve an average number of successes as large as you please if you perform sufficiently many trials. So, M (or, just saying "M is large") is not enough to justify a Poisson model for X.

It is not difficult to algebraically establish

Pr[X=x]=eλλxx!,x=0,1,2,
as a limiting case of
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
by setting p=λ/M and letting M. Other answers here have addressed the intuition behind this relationship and provided computational guidance as well. But it is important that p=λ/M. You can't ignore this.
heropup
sumber
0

I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.

PM.
sumber
-2

Bola jatuh melalui lapisan pasak

Saya pikir ini adalah contoh terbaik yang secara intuitif menjelaskan bagaimana distribusi binomial bertemu menjadi normal dengan sejumlah besar bola. Di sini, setiap bola memiliki probabilitas yang sama untuk jatuh di kedua sisi pasak di setiap lapisan dan semua bola harus menghadapi jumlah pasak yang sama. Dapat dengan mudah dilihat bahwa ketika jumlah bola berjalan sangat tinggi, distribusi bola di bagian yang berbeda akan seperti distribusi normal.

Jawaban saya untuk pertanyaan Anda 2 sama dengan jawaban yang diberikan oleh Lukasz.

samwise_the_wise
sumber
2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen
I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise
1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise
1
I see a heavily discretized version of a binomial distribution. Why should it be obvious that the distribution of balls at the bottom of this quincunx should be normal? Regardless of how many balls you drop through this machine, you will still get a distribution of counts in 13 bins: that cannot possibly be normal!
whuber