Interval kepercayaan sekitar estimasi binomial 0 atau 1

36

Apa teknik terbaik untuk menghitung interval kepercayaan dari percobaan binomial, jika perkiraan Anda adalah (atau sama dengan ) dan ukuran sampel relatif kecil, misalnya ?p = 1 n = 25hal=0hal=1n=25

Kasper
sumber
Bagaimana mendekati nol adalah p ? Apakah nol sering, atau pada urutan 0,001, atau 0,01, atau ...? Dan berapa banyak data yang Anda miliki? hal^
jbowman
Kami biasanya memiliki lebih dari 800 percobaan. Kami biasanya mengharapkan 0-0,1 untuk phal^
AI2.0
Gunakan interval Clopper-Pearson yang Anda tautkan. Prinsip umum: Coba interval Clopper-Pearson terlebih dahulu. Jika komputer tidak dapat mendapatkan jawabannya, cobalah metode perkiraan, seperti perkiraan normal. Menurut kecepatan komputer saat ini, saya tidak berpikir kita perlu perkiraan pada sebagian besar situasi.
user158565
Untuk hanya mendapatkan batas atas interval kepercayaan dengan (1- tingkat kepercayaan, kita hanya akan menggunakan B (1− α ; x + 1, n − x) di mana x adalah jumlah keberhasilan (atau kegagalan), n adalah ukuran sampel. Dalam python, kita hanya menggunakan . Jika ini BENAR, dapatkah kita menyimpulkan bahwa kita 1− α yakin bahwa batas atas dibatasi oleh nilai yang kita hitung ?ααscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x) αscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
AI2.0
1
Dengan 800 percobaan, perkiraan Normal yang biasa akan bekerja dengan cukup baik hingga sekitar (simulasi saya menunjukkan cakupan aktual 94,5% dari interval kepercayaan 95%.) Pada 1000 percobaan dan p = 0,01 , cakupan sebenarnya adalah sekitar 92,7% (semua berdasarkan 100.000 ulangan.) Jadi ini hanya masalah untuk p yang sangat rendah , mengingat jumlah uji coba Anda. hal=0,015hal=0,01hal
jbowman

Jawaban:

53

Jangan gunakan perkiraan normal

Banyak yang telah ditulis tentang masalah ini. Saran umum adalah jangan pernah menggunakan perkiraan normal (mis., Interval kepercayaan asimptotik / Wald), karena memiliki sifat cakupan yang mengerikan. Kode R untuk menggambarkan ini:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

Peluang cakupan untuk interval kepercayaan asimptotik untuk proporsi binomial.

Untuk probabilitas keberhasilan yang kecil, Anda mungkin meminta interval kepercayaan 95%, tetapi sebenarnya mendapatkan, katakanlah, interval kepercayaan 10%!

Rekomendasi

Jadi apa yang harus kita gunakan? Saya percaya rekomendasi saat ini adalah yang tercantum dalam makalah Estimasi Interval untuk Proporsi Binomial oleh Brown, Cai dan DasGupta dalam Ilmu Statistik 2001, vol. 16, tidak. 2, halaman 101–133. Para penulis memeriksa beberapa metode untuk menghitung interval kepercayaan, dan sampai pada kesimpulan berikut.

[W] e merekomendasikan interval Wilson atau interval Jeffreys ekor sama untuk n kecil dan interval yang disarankan di Agresti dan Coull untuk n lebih besar .

Interval Wilson juga kadang-kadang disebut interval skor , karena didasarkan pada pembalikan tes skor.

Menghitung intervalnya

Untuk menghitung interval kepercayaan ini, Anda dapat menggunakan kalkulator online ini atau binom.confint()fungsi dalam binompaket di R. Misalnya, untuk 0 keberhasilan dalam 25 percobaan, kode R adalah:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

Ini bayesadalah interval Jeffrey. (Argumen type="central"diperlukan untuk mendapatkan interval sama-ekor .)

Perhatikan bahwa Anda harus memutuskan yang mana dari tiga metode yang ingin Anda gunakan sebelum menghitung interval. Melihat ketiganya dan memilih yang terpendek secara alami akan memberi Anda kemungkinan cakupan yang terlalu kecil.

Jawaban cepat dan perkiraan

Sebagai catatan akhir, jika Anda mengamati persis nol keberhasilan dalam Anda n cobaan dan hanya ingin interval kepercayaan sangat cepat perkiraan, Anda dapat menggunakan aturan tiga . Cukup bagi angka 3 dengan n . Dalam contoh di atas n adalah 25, jadi batas atas adalah 3/25 = 0,12 (batas bawah tentu saja 0).

Karl Ove Hufthammer
sumber
Terima kasih banyak atas jawaban Anda. Bayangkan contoh kehidupan nyata ini: Seorang arsitek harus menguji di gedung pencakar langit jika semua panel insulasi di langit-langit dipasang dengan benar. Dia membuka 25 panel langit-langit pada pemilihan lantai secara acak dan menemukan di atas semua isolasi panel langit-langit ini. Jadi kita dapat menyimpulkan probabilitas nyata memiliki panel isolasi dengan kepastian 95% antara CI [0,867-1] berdasarkan interval skor Wilson?
Kasper
2
Saya tidak akan mengatakan bahwa Anda dapat menyimpulkannya dengan '95% kepastian' (Google untuk 'interpretasi interval kepercayaan yang benar'). Juga, ini didasarkan pada asumsi uji coba independen dengan probabilitas keberhasilan yang sama, yang mungkin tidak realistis di sini. Mungkin panel terakhir yang dipasang memiliki risiko lebih tinggi dipasang secara tidak benar (orang yang menginstalnya mulai lelah / bosan). Atau mungkin yang pertama, karena orang itu kurang berpengalaman saat itu. Lagi pula, jika arsitek diminta untuk menguji apakah semua panel terpasang dengan benar, ia harus melakukan tugasnya, bukan hanya menguji sampel!
Karl Ove Hufthammer
5
bayesmenggunakan seragam sebelumnya (bukan Jeffrey) ketika kedua parameter bentuk adalah 1. Saya diemail dengan pengelola paket binom karena penasaran tentang (perbedaan) keuntungan Jeff seragam vs seragam sebelumnya dan dia mengatakan kepada saya bahwa versi baru akan menggunakan seragam sebelumnya sebagai standar. Jadi jangan heran jika hasilnya sedikit berbeda di masa depan.
cbeleites mendukung Monica
3
Ini jawaban yang sangat bagus. Ini menyampaikan semua informasi utama yang dapat Anda baca di makalah tentang topik tersebut, tetapi sangat singkat dan jelas. Jika saya dapat membesarkan dua kali saya akan.
SigmaX
6
The binconfmetode dalam Hmiscjuga menghitung interval ini. Ini default ke metode Wilson.
SigmaX
0

hal±zα/2hal(1-hal)/nπ0π0π0

|hal-π0|hal(1-hal)/n=0
(1+z02/n)π02+(-2hal-z02/n)π0+hal2=0

Jay Schyler Raadt
sumber
1
π0
π0haln
Itu Agresti.
Nick Cox
@NickCox itu pekerjaan yang berbeda
Jay Schyler Raadt
1
Alan Agresti telah menerbitkan berbagai teks. Saya kira Anda menyinggung Pengantar Analisis Data Kategorikal (edisi ke-2 2007; edisi ke-3 yang dijadwalkan untuk publikasi Oktober 2018 dan dapat memuat tanggal 2019) dari John Wiley.
Nick Cox