Hampir setiap buku teks yang membahas aproksimasi normal terhadap distribusi binomial menyebutkan aturan praktis bahwa aproksimasi dapat digunakan jika dan . Beberapa buku menyarankan np (1-p) \ geq 5 sebagai gantinya. Konstanta yang sama 5 sering muncul dalam diskusi tentang kapan harus menggabungkan sel dalam uji \ chi ^ 2 . Tak satu pun dari teks yang saya temukan memberikan pembenaran atau referensi untuk aturan praktis ini.
Dari mana konstanta 5 ini berasal? Kenapa tidak 4 atau 6 atau 10? Di mana aturan praktis ini awalnya diperkenalkan?
Jawaban:
Beberapa kemungkinan ditawarkan oleh artikel Wikipedia tentang distribusi Binomial, di bawah bagian tentang perkiraan Normal , yang saat ini mencakup komentar berikut (penekanan milik saya):
Sekarang, ini terkait dengan memastikan bahwa perkiraan normal berada dalam batasan hukum untuk variabel binomial, .x∼N(μ,σ) x∈[0,n]
Untuk menguraikan ini, jika kita parameterkan probabilitas cakupan yang diinginkan dalam hal z-skor , maka kita memiliki Menggunakan momen Binomial dan , batasan di atas memerlukan Jadi untuk pendekatan ini akan sesuai dengan probabilitas jangkauan mana adalah CDF normal standarz>0
Jadi, sejauh probabilitas cakupan ini adalah "cantik" dan 5 adalah angka bulat yang bagus ... yang mungkin bisa memberikan pembenaran? Saya tidak punya banyak pengalaman dengan teks probabilitas, jadi tidak bisa mengatakan seberapa umum "5" adalah, vs "angka spesifik" lainnya untuk menggunakan ungkapan Wikipedia. Perasaan saya adalah tidak ada yang benar-benar istimewa tentang 5, dan Wikipedia menyarankan 9 juga umum (sesuai dengan "cantik" dari 3).z
sumber
Bukan penjelasan lengkap, tetapi menarik untuk kembali ke Cochran 1952 Annals of Math Stats "Tes uji goodness of fit" ( http://www.jstor.org/stable/2236678 ), Bagian II (" Beberapa Aspek Penggunaan Uji Praktis "), yang merupakan barang antik yang cukup terhormat di lapangan ... Cochran membahas sejarah dasar-dasar teoretis dari tes (Pearson 1900, Fisher 1922, 1924), tetapi tidak menyentuh pada aturan praktis sampai bagian berikut ... [penekanan ditambahkan]χ2
sumber
Selain jawaban yang sangat bagus yang sudah diposting, saya pikir mungkin akan membantu untuk memiliki visualisasi menjelajahi distribusi proporsi yang diamati untuk memvariasikan nilai dan .n p
Untuk menghasilkan histogram di bawah ini, saya mengambil sampel dari percobaan Bernoulli dengan probabilitas , dan mengulangi proses ini 10.000 kali. Saya kemudian menghasilkan histogram dari proporsi yang diamati dari masing-masing 10.000 percobaan.n p
Secara visual, sepertinya cukup masuk akal. Meskipun ketika tampaknya masih ada beberapa kliping yang terjadi dengan dan . Setelah Anda mencapai , dampaknya tampak cukup kecil.np≥5 n=50 np=5.5 np=6.5 np=7.5
Perhatikan juga bahwa plot ini akan simetris karena jika kita mengambil nilai .p′ p′=(1−p)
Kode python untuk menghasilkan plot. Anda dapat menggunakan ini untuk mengubah dan jika Anda ingin bereksperimen sendiri.n p
sumber
Aturan memberikan kriteria yang memastikan bahwa p tidak dekat dengan 0 atau ke 1. Jika lebih dekat ke 0 atau 1, distribusi yang dihasilkan tidak akan menjadi aproksimasi yang baik untuk distribusi normal.
Anda dapat melihat pembenaran bergambar yang sama di sini
sumber