perkiraan normal untuk distribusi binomial: mengapa np> 5?

9

Hampir setiap buku teks yang membahas aproksimasi normal terhadap distribusi binomial menyebutkan aturan praktis bahwa aproksimasi dapat digunakan jika dan . Beberapa buku menyarankan np (1-p) \ geq 5 sebagai gantinya. Konstanta yang sama 5 sering muncul dalam diskusi tentang kapan harus menggabungkan sel dalam uji \ chi ^ 2 . Tak satu pun dari teks yang saya temukan memberikan pembenaran atau referensi untuk aturan praktis ini.np5n(1p)5np(1p)55χ2

Dari mana konstanta 5 ini berasal? Kenapa tidak 4 atau 6 atau 10? Di mana aturan praktis ini awalnya diperkenalkan?

Jochen
sumber
5
Ini aturan praktis. Jika itu keras, Anda tidak perlu jempol.
Hong Ooi
2
Saya juga melihat np(1p)>9 dan np(1p)>10 .
Glen_b -Reinstate Monica

Jawaban:

7

Beberapa kemungkinan ditawarkan oleh artikel Wikipedia tentang distribusi Binomial, di bawah bagian tentang perkiraan Normal , yang saat ini mencakup komentar berikut (penekanan milik saya):

Aturan lain yang umum digunakan adalah bahwa kedua nilai dan harus lebih besar dari 5. Namun, angka spesifik bervariasi dari sumber ke sumber , dan tergantung pada seberapa baik perkiraan yang diinginkan.npn(1p)

Sekarang, ini terkait dengan memastikan bahwa perkiraan normal berada dalam batasan hukum untuk variabel binomial, .xN(μ,σ)x[0,n]

Untuk menguraikan ini, jika kita parameterkan probabilitas cakupan yang diinginkan dalam hal z-skor , maka kita memiliki Menggunakan momen Binomial dan , batasan di atas memerlukan Jadi untuk pendekatan ini akan sesuai dengan probabilitas jangkauan mana adalah CDF normal standarz>0

μ±zσ[0,n]zσmin[μ,nμ]z2min[μ2σ2,(nμ)2σ2]
μ=npσ2=np(1p)
min[p,1p]nz2
z2=5
Φ[5]Φ[5]97.5%
Φ.

Jadi, sejauh probabilitas cakupan ini adalah "cantik" dan 5 adalah angka bulat yang bagus ... yang mungkin bisa memberikan pembenaran? Saya tidak punya banyak pengalaman dengan teks probabilitas, jadi tidak bisa mengatakan seberapa umum "5" adalah, vs "angka spesifik" lainnya untuk menggunakan ungkapan Wikipedia. Perasaan saya adalah tidak ada yang benar-benar istimewa tentang 5, dan Wikipedia menyarankan 9 juga umum (sesuai dengan "cantik" dari 3).z

GeoMatt22
sumber
4

Bukan penjelasan lengkap, tetapi menarik untuk kembali ke Cochran 1952 Annals of Math Stats "Tes uji goodness of fit" ( http://www.jstor.org/stable/2236678 ), Bagian II (" Beberapa Aspek Penggunaan Uji Praktis "), yang merupakan barang antik yang cukup terhormat di lapangan ... Cochran membahas sejarah dasar-dasar teoretis dari tes (Pearson 1900, Fisher 1922, 1924), tetapi tidak menyentuh pada aturan praktis sampai bagian berikut ... [penekanan ditambahkan]χ2

7. Harapan minimum . Karena x2 telah ditetapkan sebagai distribusi terbatas X2 dalam sampel besar, sudah lazim untuk merekomendasikan, dalam aplikasi tes, bahwa jumlah terkecil yang diharapkan dalam kelas mana pun harus 10 atau (dengan beberapa penulis) 5. ... Ini topik baru-baru ini menjadi subyek diskusi yang kuat di antara para psikolog [17], [18]. Angka 10 dan 5 tampaknya telah dipilih secara sewenang-wenang. Beberapa investigasi menyoroti ketepatan aturan. Pendekatannya adalah untuk menguji distribusi X2 yang tepat, ketika beberapa atau semua harapan kecil, baik dengan metode matematika atau dari eksperimen pengambilan sampel.

Investigasi jarang dan lingkupnya sempit, seperti yang diharapkan karena pekerjaan jenis ini memakan waktu. Jadi rekomendasi yang diberikan di bawah ini mungkin memerlukan modifikasi ketika bukti baru tersedia.

Untuk menyimpang sejenak, masalah menyelidiki perilaku X2 ketika harapan kecil adalah contoh dari seluruh kelas masalah yang relevan dengan statistik yang diterapkan. Dalam aplikasi itu adalah kejadian sehari-hari untuk menggunakan hasil dari teori dalam situasi di mana kita tahu, atau sangat curiga, bahwa beberapa asumsi dalam teori tidak valid. Dengan demikian literatur berisi investigasi distribusi-t ketika populasi induk adalah tidak normal, dan kinerja estimasi regresi linier ketika regresi dalam populasi sebenarnya nonlinier. Untungnya untuk aplikasi, hasil teori kadang-kadang tetap benar bahkan ketika beberapa asumsi gagal. Fakta ini cenderung menjadikan statistik subjek yang lebih membingungkan daripada matematika murni,

Ben Bolker
sumber
1

Selain jawaban yang sangat bagus yang sudah diposting, saya pikir mungkin akan membantu untuk memiliki visualisasi menjelajahi distribusi proporsi yang diamati untuk memvariasikan nilai dan .np

Untuk menghasilkan histogram di bawah ini, saya mengambil sampel dari percobaan Bernoulli dengan probabilitas , dan mengulangi proses ini 10.000 kali. Saya kemudian menghasilkan histogram dari proporsi yang diamati dari masing-masing 10.000 percobaan.np

Plot histogram tersebut

Secara visual, sepertinya cukup masuk akal. Meskipun ketika tampaknya masih ada beberapa kliping yang terjadi dengan dan . Setelah Anda mencapai , dampaknya tampak cukup kecil.np5n=50np=5.5np=6.5np=7.5

Perhatikan juga bahwa plot ini akan simetris karena jika kita mengambil nilai .pp=(1p)

Kode python untuk menghasilkan plot. Anda dapat menggunakan ini untuk mengubah dan jika Anda ingin bereksperimen sendiri.np

import matplotlib.pyplot as plt
import numpy as np
np.random.seed(20190915)


def make_hists(axs, n):
    proportions = np.linspace(0.01, 0.19, len(axs))
    for i, prop in enumerate(proportions):
        # Draw n samples 10,000 times
        x = np.random.rand(n, 10_000) < prop
        means = x.mean(axis=0)
        axs[i].hist(means, bins=np.linspace(0, 0.5, n//2))
        axs[i].set_xlim([0, 0.5])
        axs[i].set_yticklabels([])
        ylim_mean = np.mean(axs[i].get_ylim())
        axs[i].text(-0.08, ylim_mean * 3/2, f'$p={prop:.2f}$', va='center')
        axs[i].text(-0.08, ylim_mean * 2/3, f'$np={n * prop:.1f}$', va='center')
    axs[0].set_title(f'$n={n}$')

def main():
    f, axs = plt.subplots(10, 2, sharex=True, figsize=(12, 8))
    make_hists(axs[:, 0], 50)
    make_hists(axs[:, 1], 250)
    f.suptitle(
        'Histograms of 10,000 sample proportions, varying $p$ and $n$',
        fontsize=14
    )
    plt.show()

main()
kbrose
sumber
0

Aturan memberikan kriteria yang memastikan bahwa p tidak dekat dengan 0 atau ke 1. Jika lebih dekat ke 0 atau 1, distribusi yang dihasilkan tidak akan menjadi aproksimasi yang baik untuk distribusi normal.

Anda dapat melihat pembenaran bergambar yang sama di sini

Bach
sumber
2
Ya saya setuju. Tetapi juga akan memberikan kriteria seperti itu. Jadi mengapa 5? np(1p)>10
jochen