Di sini, di Wikipedia dikatakan:
Untuk nilai cukup besar , (katakan ), distribusi normal dengan rata-rata dan varians (standar deviasi ), merupakan pendekatan yang sangat baik untuk distribusi Poisson. Jika lebih besar dari sekitar 10, maka distribusi normal adalah perkiraan yang baik jika koreksi kontinuitas yang tepat dilakukan, yaitu, mana (huruf kecil) adalah bilangan bulat non-negatif, digantikan oleh
Sayangnya ini tidak dikutip. Saya ingin dapat menunjukkan / membuktikan ini dengan keras. Bagaimana Anda bisa benar-benar mengatakan distribusi normal adalah perkiraan yang baik ketika , bagaimana Anda menghitung perkiraan 'sangat baik' ini, ukuran apa yang digunakan?
Terjauh yang saya miliki dengan ini adalah di sini di mana John berbicara tentang menggunakan teorema Berry – Esseen dan mendekati kesalahan dalam dua CDF. Dari apa yang saya lihat dia tidak mencoba nilai apa pun dari .
Jawaban:
Misalkan adalah Poisson dengan parameter , dan normal dengan mean dan varians . Tampak bagi saya bahwa perbandingan yang tepat adalah antara dan . Di sini untuk kesederhanaan saya menulis , yaitu, kami tertarik ketika berkorespondensi dengan standar deviasi dari mean.X λ Y λ Pr(X=n) Pr(Y∈[n−12,n+12]) n=λ+αλ−−√ n α
Jadi saya curang. Saya menggunakan Mathematica. Jadi dan tidak ke sebagai . Tetapi perbedaannya adalah asimptotik untuk Jika Anda memplot ini sebagai fungsi dari , Anda akan mendapatkan kurva yang sama seperti yang ditunjukkan pada gambar kedua hingga terakhir di http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr(X=n) Pr(Y∈[n−12,n+12])
Berikut adalah perintah yang saya gunakan:
Juga, dengan sedikit eksperimen, bagi saya tampaknya pendekatan asimptotik yang lebih baik untuk adalah . Maka kesalahannya adalah yaitu sekitar kali lebih kecil.Pr(X=n) Pr(Y∈[n−α2/6,n+1−α2/6])
sumber
Glen_b benar karena "kecocokan" adalah gagasan yang sangat subyektif. Namun, jika Anda ingin memverifikasi bahwa distribusi poisson Anda cukup normal, Anda dapat menggunakan tes Kolmorgov-Smirnov hipotetis dengan hipotesis nol menjadi CDF berasal dari distribusi , dengan asumsi sampel Anda akan berasal dari poisson ( ). Karena Anda tidak benar-benar menguji sampel, tetapi satu distribusi terhadap yang lain, Anda perlu berpikir hati-hati tentang ukuran sampel dan tingkat signifikansi yang Anda asumsikan untuk uji hipotesis ini (karena kami tidak menggunakan tes KS dengan cara khasnya). Itu adalah:H0: N(λ,λ) λ
Sekarang, hitung tingkat kesalahan Tipe II untuk tes ini dengan asumsi data Anda benar-benar berasal dari poisson ( ). Tingkat kecocokan Anda dengan distribusi normal adalah tingkat kesalahan Tipe II ini, dalam arti bahwa sampel ukuran n dari distribusi poisson khusus Anda, rata-rata, akan diterima % dari waktu dengan uji normalitas KS pada pilihan Anda. tingkat signifikansi.λ β
Ngomong-ngomong, itu hanya salah satu cara untuk mendapatkan rasa "kebaikan pas". Namun, semua bergantung pada beberapa gagasan subjektif tentang "kebaikan" yang harus Anda definisikan sendiri.
sumber
Derivasi dari distribusi binomial mungkin memberi Anda wawasan.
Kami memiliki variabel acak binomial;
Ini dapat secara alternatif dihitung secara rekursif;
Jika Anda menjaga kondisi awal;
Sekarang mari kita asumsikan bahwa besar dan kecil tetapi keberhasilan rata-rata adalah konstan . Maka kita dapat melakukan hal berikut;n p p(x) (np=λ)
Kami menggunakan .p=λ/n
Kami beralih beberapa variabel di sekitar dan mengevaluasi;
Dari kalkulus kita tahu bahwa . Kita juga tahu bahwa karena bagian atas dan bawah adalah polinomial derajat .limn→∞(1+x/n)n=ex [n(n−1)(n−2)⋯(n−i+1)]/ni≈1 i
Ini mengarah pada kesimpulan bahwa sebagai :n→∞
Anda kemudian dapat memverifikasi bahwa dan melalui definisi. Kita tahu bahwa distribusi binomial mendekati normal dalam kondisi Teorema De Moivre-Laplace selama Anda mengoreksi kontinuitas, itulah sebabnya digantikan oleh .E(X)=λ Var(X)=λ P(X≤x) P(X≤x+0.5)
sumber