Dalam "Analisis Data" oleh DS Sivia, ada derivasi dari distribusi Poisson, dari distribusi binomial.
Mereka berpendapat bahwa distribusi Poisson adalah kasus terbatas dari distribusi binomial ketika , di mana adalah jumlah percobaan.
Pertanyaan 1: Bagaimana argumen itu dimengerti secara intuitif?
Pertanyaan 2: Mengapa batas besar untuk sama dengan, di manaadalah jumlah keberhasilan dalampercobaan? (Langkah ini digunakan dalam derivasi.)
binomial
poisson-distribution
combinatorics
intuition
probability-calculus
Ytsen de Boer
sumber
sumber
Jawaban:
Saya akan mencoba penjelasan intuitif sederhana. Rekam bahwa untuk variabel acak binomialX∼Bin(n,p) kita memiliki harapan adalah np dan varians adalah np(1−p) . Sekarang berpikir bahwa X mencatat jumlah kejadian dalam jumlah yang sangat besar n percobaan, masing-masing dengan probabilitas yang sangat kecil p , seperti yang kita sangat dekat dengan 1 - p = 1 (benar-benar ≈ ). Maka kita memiliki n p = λ katakanlah, dan n p ( 1 - p ) ≈ n p 1 = λ , sehingga mean dan varians keduanya sama dengan λ . Kemudian ingat bahwa untuk variabel acak terdistribusi poisson, kami selalu memiliki mean dan varians yang sama! Setidaknya itu adalah argumen masuk akal untuk perkiraan poisson, tetapi bukan bukti.
Kemudian lihat dari sudut pandang lain, proses titik poisson https://en.wikipedia.org/wiki/Poisson_point_process pada baris asli. Ini adalah distribusi poin acak pada baris yang kita dapatkan jika poin acak terjadi sesuai aturan:
Kemudian distribusi jumlah titik dalam interval yang diberikan (tidak harus pendek) adalah Poisson (dengan parameter sebanding dengan panjang). Sekarang, jika kita membagi interval ini dalam sangat banyak, subintervals yang sangat sangat pendek ( n ), probabilitas dua atau lebih poin dalam subinterval yang diberikan pada dasarnya adalah nol, sehingga angka tersebut akan memiliki, dengan perkiraan yang sangat baik, distribusi bernolli, yaitu, Bin ( 1 , p ) , jadi jumlah semua ini adalah Bin ( n , p ) , jadi perkiraan yang baik dari distribusi poisson dari sejumlah titik dalam interval (panjang) itu.λ n Bin(1,p) Bin(n,p)
Edit dari @Ytsen de Boer (OP): pertanyaan nomor 2 dijawab dengan memuaskan oleh @ Łukasz Grad.
sumber
Biarkan saya memberikan heuristik alternatif. Saya akan menunjukkan bagaimana cara memperkirakan proses Poisson sebagai binomial (dan berpendapat bahwa perkiraan lebih baik untuk banyak percobaan dengan probabilitas rendah). Oleh karena itu distribusi binomial harus cenderung ke distribusi Poisson.
Katakanlah peristiwa terjadi dengan laju yang konstan dalam waktu. Kami ingin mengetahui distribusi berapa banyak peristiwa yang terjadi dalam sehari, mengetahui bahwa jumlah acara yang diharapkan adalahλ .
Nah, jumlah acara yang diharapkan per jam adalahλ/24 . Mari kita berpura-pura bahwa ini berarti bahwa probabilitas suatu peristiwa terjadi pada jam tertentu adalah λ/24 . [itu tidak sepenuhnya benar, tetapi merupakan perkiraan yang layak jika λ/24≪1 pada dasarnya jika kita dapat mengasumsikan beberapa peristiwa tidak terjadi dalam jam yang sama]. Kemudian kita dapat memperkirakan distribusi jumlah peristiwa sebagai binomial dengan M=24 percobaan, masing-masing memiliki probabilitas keberhasilan λ/24 .
Kami meningkatkan perkiraan dengan mengalihkan interval kami ke menit. Makap=λ/1440 dengan M=1440 percobaan. Jika λ ada, katakan 10, maka kita bisa cukup yakin bahwa tidak ada menit yang memiliki dua peristiwa.
Tentu saja akan lebih baik jika kita beralih ke detik. Sekarang kita melihatM=86400 peristiwa masing-masing dengan probabilitas kecil λ/86400 .
Tidak peduli seberapa besar Andaλ adalah, saya akhirnya bisa memilih cukup kecil Δt sedemikian rupa sehingga sangat mungkin bahwa ada dua peristiwa terjadi dalam interval yang sama. Maka distribusi binomial yang sesuai dengan Δt akan sangat cocok dengan distribusi Poisson yang sebenarnya.
Satu-satunya alasan mereka tidak persis sama adalah bahwa ada probabilitas non-nol bahwa dua peristiwa terjadi dalam interval waktu yang sama. Tetapi mengingat hanya ada sekitarλ kejadian dan mereka didistribusikan ke beberapa jumlah sampah yang jauh lebih besar dari λ , tidak mungkin ada dua dari mereka yang berada di tempat yang sama.
Atau dengan kata lain, distribusi binomial cenderung distribusi Poisson sebagaiM→∞ jika probabilitas sukses p=λ/M .
sumber
pertanyaan 1
Ingat definisi distribusi binomial:
Bandingkan ini dengan definisi distribusi Poisson:
Perbedaan substansial antara 2 adalah binomial dalam percobaan, Poisson adalah lebih dari periode waktu t . Bagaimana batas itu terjadi secara intuitif?n t
Katakanlah bahwa Anda harus terus menjalankan uji coba Bernoulli untuk selamanya. Selain itu, Anda menjalankan per menit. Per menit Anda menghitung setiap keberhasilan. Jadi untuk selamanya Anda menjalankan proses B i n ( p , 30 ) setiap menit. Lebih dari 24 jam, Anda memiliki B i n ( p , 43200 ) .n=30 Bin(p,30) Bin(p,43200)
Ketika Anda lelah, Anda ditanya "berapa banyak kesuksesan yang terjadi antara pukul 18.00 dan 19.00?". Jawaban Anda mungkin , yaitu Anda memberikan keberhasilan rata-rata dalam satu jam. Kedengarannya sangat mirip dengan parameter Poisson λ bagi saya.30∗60∗p λ
sumber
Pertanyaan 2)
Jadi mengambil batas untuk fixedN
sumber
The problem is that your characterization of the Poisson as a limiting case of the binomial distribution is not quite correct as stated.
The Poisson is a limiting case of the binomial when:
What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensityλ --but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.
To illustrate, suppose we model a series ofM independent Bernoulli trials each with probability of success p , and we look at what happens to the distribution of the number of successes X as M→∞ . For any N as large as we please, and no matter how small p is, the expected number of successes E[X]=Mp>N for M>N/p . Put another way, no matter how unlikely the probability of success, eventually you can achieve an average number of successes as large as you please if you perform sufficiently many trials. So, M→∞ (or, just saying "M is large") is not enough to justify a Poisson model for X .
It is not difficult to algebraically establish
sumber
I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.
The binomial coefficient gives you the number of samples of sizeN , from M , without replacement and without order.
Here thoughM becomes so large that you may approximate the scenario as sampling with replacement in which case you get
MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects
can be ordered in N! ways.
sumber
Saya pikir ini adalah contoh terbaik yang secara intuitif menjelaskan bagaimana distribusi binomial bertemu menjadi normal dengan sejumlah besar bola. Di sini, setiap bola memiliki probabilitas yang sama untuk jatuh di kedua sisi pasak di setiap lapisan dan semua bola harus menghadapi jumlah pasak yang sama. Dapat dengan mudah dilihat bahwa ketika jumlah bola berjalan sangat tinggi, distribusi bola di bagian yang berbeda akan seperti distribusi normal.
Jawaban saya untuk pertanyaan Anda 2 sama dengan jawaban yang diberikan oleh Lukasz.
sumber