Estimasi interval kepercayaan binomial - mengapa tidak simetris?

30

Saya telah menggunakan kode r berikut untuk memperkirakan interval kepercayaan proporsi binomial karena saya mengerti bahwa itu menggantikan "perhitungan daya" ketika merancang desain kurva karakteristik penerima yang berfungsi mengamati deteksi penyakit dalam suatu populasi.

n adalah 150, dan penyakit ini, kami percaya, adalah 25% lazim dalam populasi. Saya telah menghitung nilai untuk sensitivitas 75% dan spesifisitas 90% (karena itulah yang tampaknya dilakukan orang).

    binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95)

    binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95)

Saya juga mengunjungi situs ini:

http://statpages.org/confint.html

Yang merupakan halaman java yang menghitung interval kepercayaan binomial, dan itu memberikan jawaban yang sama.

Bagaimanapun, setelah pengaturan panjang itu, saya ingin bertanya mengapa interval kepercayaan tidak simetris, misalnya sensitivitas

   95 percent confidence interval:
   0.5975876 0.8855583 

   sample estimate probability: 0.7631579 

Maaf jika ini adalah pertanyaan bodoh, tetapi di mana-mana saya melihat sepertinya menyarankan bahwa mereka akan simetris, dan seorang kolega saya tampaknya berpikir mereka juga akan simetris.

Chris Beeley
sumber

Jawaban:

20

Mereka diyakini simetris karena cukup sering digunakan perkiraan normal. Yang ini bekerja cukup baik jika p terletak sekitar 0,5. binom.testdi sisi lain melaporkan interval Clopper-Pearson "tepat", yang didasarkan pada distribusi F (lihat di sini untuk formula yang tepat dari kedua pendekatan). Jika kita akan mengimplementasikan interval Clopper-Pearson di R itu akan menjadi seperti (lihat catatan ):

Clopper.Pearson <- function(x, n, conf.level){
    alpha <- (1 - conf.level) / 2
    QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
    QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)

    ll <- if (x == 0){
          0
    } else { x / ( x + (n-x+1)*QF.l ) }

    uu <- if (x == 0){
          0
    } else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }

    return(c(ll, uu))
}

Anda melihat di tautan dan di implementasi bahwa rumus untuk batas atas dan bawah sangat berbeda. Satu-satunya kasus interval kepercayaan simetris adalah ketika p = 0,5. Menggunakan rumus dari tautan dan memperhitungkan bahwa dalam hal ini mudah untuk menentukan sendiri bagaimana hasilnya.n=2×x

Saya pribadi memahaminya lebih baik melihat interval kepercayaan berdasarkan pendekatan logistik. Data binomial umumnya dimodelkan menggunakan fungsi tautan logit, didefinisikan sebagai:

logit(x)=log(x1x)

Fungsi tautan ini "memetakan" istilah kesalahan dalam regresi logistik ke distribusi normal. Sebagai konsekuensinya, interval kepercayaan dalam kerangka logistik simetris di sekitar nilai-nilai logit, seperti halnya dalam kerangka regresi linier klasik. Transformasi logit digunakan tepat untuk memungkinkan penggunaan seluruh teori berbasis normalitas di sekitar regresi linier.

Setelah melakukan transformasi terbalik:

logit1(x)=ex1+ex

Anda mendapatkan interval asimetris lagi. Sekarang interval kepercayaan ini sebenarnya bias. Cakupan mereka bukan yang Anda harapkan, terutama pada batas distribusi binomial. Namun, sebagai ilustrasi mereka menunjukkan kepada Anda mengapa logis bahwa distribusi binomial memiliki interval kepercayaan asimetris.

Contoh dalam R:

logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2

logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals

Catatan : Sebenarnya, R menggunakan distribusi beta, tetapi ini benar-benar setara dan komputasi sedikit lebih efisien. Implementasi dalam R dengan demikian berbeda dari apa yang saya tunjukkan di sini, tetapi memberikan hasil yang persis sama.

Joris Meys
sumber
2
Apakah Anda benar-benar bermaksud mengatakan bahwa logit "mengubah distribusi binomial dalam distribusi normal" ??
whuber
@whuber: rumus bagus, dan formula bagus. Cukup banyak tidak. Itu memastikan kesalahan dalam regresi logistik mengikuti distribusi normal. Terima kasih untuk koreksi.
Joris Meys
Y=2πarcsinXNXNYY
Tautan yang Anda berikan untuk "probabilitas tepat" terputus. Apakah Anda punya yang lain?
S. Kolassa - Reinstate Monica
@StephanKolassa Anda dapat menemukan formula Clopper Pearson di sini juga: en.wikipedia.org/wiki/…
Joris Meys
24

p=0.9p^=0.9pp^

Rob Hyndman
sumber
9

p

(p^p)/p(1p)=±zα/2

Bagaimanapun, Anda bisa mendapatkan ketiganya dalam R dengan yang berikut:

library(Hmisc)
binconf(29, 38, method = "asymptotic")
binconf(29, 38, method = "exact")
binconf(29, 38, method = "wilson")

Perhatikan bahwa metode "wilson" adalah interval kepercayaan yang sama yang digunakan oleh prop.test tanpa koreksi kontinuitas Yates ':

prop.test(29, 38, correct = FALSE)

Lihat di sini untuk manual SPLUS + R gratis Laura Thompson yang menyertai Analisis Data Kategorikal Agresti di mana masalah ini dibahas dengan sangat rinci.


sumber
1
(+1) Senang Anda mengutip buku pelajaran Laura dan menambahkan pelengkap informasi ini tentang CI Wilson.
chl
2
Terima kasih. Saya ingin menunjukkan bahwa interval Wilson dibahas dalam artikel yang dirujuk oleh @Joris.
9

Ada yang interval kepercayaan simetris untuk distribusi Binomial: asimetri tidak dipaksakan pada kami, meskipun semua alasan yang telah disebutkan. Interval simetris biasanya dianggap lebih rendah

  1. Meskipun mereka numerik simetris, mereka tidak simetris dalam probabilitas : yaitu, cakupan satu-ekor mereka berbeda satu sama lain. Ini - konsekuensi penting dari kemungkinan asimetri dari distribusi Binomial - adalah inti dari masalah ini.

  2. Seringkali satu titik akhir harus tidak realistis (kurang dari 0 atau lebih besar dari 1), seperti yang ditunjukkan oleh @Rob Hyndman.

Karena itu, saya menduga bahwa CI simetris numerik mungkin memiliki beberapa sifat yang baik, seperti cenderung lebih pendek daripada yang probabilistik simetris dalam beberapa keadaan.

whuber
sumber
p^=k/n
@ cb Saya tidak mengikuti ini. Pertama, CI terpendek tidak harus memiliki kepadatan yang sama di setiap ujungnya. Kedua, komentar tentang "tidak ada" tidak masuk akal bagi saya: apa artinya "tidak ada"?
whuber
1
CI terpendek. Untuk menghitung CI terpendek untuk cakupan yang diberikan, saya akan mulai pada kepadatan maksimum dan memperbesar langkah pendek ke sisi di mana kepadatan lebih tinggi. Di sana saya mendapatkan cakupan kepercayaan diri paling banyak (untuk langkah singkatnya). Saya memperbesar ci berulang kali sampai saya memiliki area yang diinginkan (cakupan). Jika langkah saya kecil (sangat kecil) maka kepadatan di kedua sisi akan (kurang-lebih) sama. Apakah saya melakukan kesalahan dalam strategi ini?
cbeleites mendukung Monica
pp^=4/5=0.8pp<70%
1
Apakah kita berbicara tentang hal-hal yang berbeda? Distribusi binomial adalah diskrit, ci akan menjadi "untuk , dalam 94% dari pengulangan yang kita amati k { 3 5 , kp=0.8k{3,4,5}n=5pnkpk=4n=5Pr(p|n=5,k=4)p[0,1]Pr(k|n,p)p
6

p01np0.5

chl
sumber
2

Saya tahu itu sudah lama, tapi saya pikir saya akan berpadu di sini. Diberikan n dan p, mudah untuk menghitung probabilitas sejumlah keberhasilan tertentu secara langsung menggunakan distribusi binomial. Orang kemudian dapat memeriksa distribusi untuk melihat bahwa itu tidak simetris. Ini akan mendekati simetri untuk np besar dan besar n (1-p).

Seseorang dapat mengakumulasikan probabilitas di bagian ekor untuk menghitung CI tertentu. Mengingat sifat diskrit dari distribusi, menemukan probabilitas khusus pada ekor (misalnya, 2,5% untuk CI 95%) akan membutuhkan interpolasi antara jumlah keberhasilan. Dengan metode ini, seseorang dapat menghitung CI secara langsung tanpa perkiraan (selain dari interpolasi yang diperlukan).

Eric
sumber