Sebuah pertanyaan baru tentang perbedaan antara interval kepercayaan dan interval yang dapat dipercaya membuat saya mulai membaca kembali artikel Edwin Jaynes tentang topik itu:
Jaynes, ET, 1976. `Interval Keyakinan vs Interval Bayesian, 'dalam Fondasi Teori Probabilitas, Statistik Inferensi, dan Teori Statistik Sains, WL Harper dan CA Hooker (eds.), D. Reidel, Dordrecht, p. 175; ( pdf )
Dalam abstrak, Jaynes menulis:
... kami menunjukkan solusi Bayesian dan ortodoks untuk enam masalah statistik umum yang melibatkan interval kepercayaan (termasuk tes signifikansi berdasarkan alasan yang sama). Dalam setiap kasus, kami menemukan situasinya justru sebaliknya, yaitu metode Bayesian lebih mudah diterapkan dan menghasilkan hasil yang sama atau lebih baik. Memang, hasil ortodoks memuaskan hanya ketika mereka setuju (atau tepatnya) dengan hasil Bayesian. Belum ada contoh sebaliknya yang dihasilkan.
(penekanan milikku)
Makalah ini diterbitkan pada tahun 1976, jadi mungkin banyak hal telah berubah. Pertanyaan saya adalah, adakah contoh di mana interval kepercayaan frequentist jelas lebih unggul daripada interval kredibel Bayesian (sesuai tantangan yang secara implisit dibuat oleh Jaynes)?
Contoh yang didasarkan pada asumsi yang salah sebelumnya tidak dapat diterima karena mereka tidak mengatakan apa pun tentang konsistensi internal dari berbagai pendekatan.
sumber
Jawaban:
Saya katakan sebelumnya bahwa saya akan mencoba menjawab pertanyaan, jadi begini ...
Jaynes menjadi sedikit nakal di makalahnya bahwa interval kepercayaan yang sering terjadi tidak didefinisikan sebagai interval di mana kita mungkin mengharapkan nilai sebenarnya dari statistik terletak pada probabilitas yang tinggi (ditentukan), sehingga tidak terlalu mengejutkan bahwa kontradiksi muncul jika mereka ditafsirkan seolah-olah mereka. Masalahnya adalah bahwa ini sering kali cara interval kepercayaan digunakan dalam praktik, karena interval sangat mungkin mengandung nilai sebenarnya (mengingat apa yang dapat kita simpulkan dari sampel data kami) adalah apa yang sering kita inginkan.
Masalah utama bagi saya adalah bahwa ketika sebuah pertanyaan diajukan, yang terbaik adalah memiliki jawaban langsung untuk pertanyaan itu. Apakah interval kredibilitas Bayesian lebih buruk daripada interval kepercayaan frequentist tergantung pada pertanyaan apa yang sebenarnya ditanyakan. Jika pertanyaan yang diajukan adalah:
(a) "Beri saya waktu interval di mana nilai sebenarnya dari statistik terletak pada probabilitas p", maka tampaknya seorang frequentist tidak dapat benar-benar menjawab pertanyaan itu secara langsung (dan ini memperkenalkan jenis masalah yang dibahas oleh Jaynes dalam makalahnya), tetapi Bayesian dapat, itulah sebabnya interval kredibel Bayesian lebih unggul daripada interval kepercayaan sering dalam contoh yang diberikan oleh Jaynes. Tapi ini hanya karena itu adalah "pertanyaan yang salah" untuk sering.
(B) "Beri saya interval di mana, jika percobaan diulang berkali-kali, nilai sebenarnya dari statistik akan berada dalam p * 100% dari interval seperti itu" maka jawaban yang sering terjadi adalah apa yang Anda inginkan. Bayesian mungkin juga dapat memberikan jawaban langsung untuk pertanyaan ini (meskipun mungkin bukan interval yang jelas dan dapat dipercaya). Komentar Whuber pada pertanyaan tersebut menunjukkan bahwa inilah masalahnya.
Jadi pada dasarnya, ini adalah masalah menentukan pertanyaan dengan benar dan mengintepretasikan jawaban dengan benar. Jika Anda ingin mengajukan pertanyaan (a) kemudian gunakan interval Bayesian yang kredibel, jika Anda ingin mengajukan pertanyaan (b) maka gunakan interval kepercayaan yang sering.
sumber
Ini adalah contoh "menyempurnakan" yang diberikan dalam sebuah buku yang ditulis oleh Larry Wasserman Semua statistik pada Halaman ( 12.8 Kekuatan dan Kelemahan dari Bayesian Inference ). Saya pada dasarnya memberikan apa yang tidak ditulis oleh Wasserman dalam bukunya 1) penjelasan untuk apa yang sebenarnya terjadi, dan bukannya membuang garis; 2) jawaban yang sering muncul untuk pertanyaan, yang tidak cocok diberikan Wasserman; dan 3) demonstrasi bahwa kepercayaan setara yang dihitung dengan menggunakan informasi yang sama juga mengalami masalah yang sama.
Dalam contoh ini, ia menyatakan situasi berikut
Dia kemudian pergi untuk menunjukkan bahwa, menggunakan interval Bayesian 95% kredibel dalam pengaturan ini akhirnya memiliki cakupan sering 0% ketika nilai sebenarnya dari menjadi besar secara sewenang-wenang. Misalnya, ia memberikan grafik cakupan (hal218), dan memeriksa dengan mata, ketika nilai sebenarnya dari θ adalah 3, cakupannya adalah sekitar 35%. Dia kemudian melanjutkan dengan mengatakan:θ θ
... Apa yang harus kita simpulkan dari semua ini? Yang penting adalah untuk memahami bahwa metode frequentist dan Bayesian menjawab pertanyaan yang berbeda. Untuk menggabungkan kepercayaan sebelumnya dengan data dengan cara berprinsip, gunakan inferensi Bayesian. Untuk membuat prosedur dengan kinerja jangka panjang yang dijamin, seperti interval kepercayaan, gunakan metode frequentist ... (hal217)
Dan kemudian melanjutkan tanpa diseksi atau penjelasan tentang mengapa metode Bayesian tampil sangat buruk. Lebih jauh, dia tidak memberikan jawaban dari pendekatan frequentist, hanya pernyataan sikat yang luas tentang "jangka panjang" - taktik politik klasik (menekankan kekuatan Anda + kelemahan orang lain, tetapi jangan pernah membandingkan suka untuk suka).
Saya akan menunjukkan bagaimana masalah sebagaimana dinyatakan dapat dirumuskan dalam istilah frequentist / orthodox, dan kemudian menunjukkan bahwa hasil menggunakan interval kepercayaan memberikan jawaban yang persis sama dengan yang Bayesian . Dengan demikian setiap cacat dalam Bayesian (nyata atau yang dirasakan) tidak diperbaiki dengan menggunakan interval kepercayaan.τ= 1
Oke, begini saja. Pertanyaan pertama yang saya tanyakan adalah kondisi pengetahuan seperti apa yang dijelaskan oleh ? Jika seseorang "bodoh" tentang θ , maka cara yang tepat untuk mengekspresikan ini adalah p ( θ ) ∝ 1 . Sekarang anggaplah bahwa kami bodoh, dan kami mengamati Y ~ N ( θ , 1 ) , secara independen dari X . Apa yang akan posterior kami untuk θ menjadi?θ ∼ N( 0 , 1 ) θ p ( θ ) ∝ 1 Y∼ N( θ , 1 ) X θ
Jadi . Ini berarti bahwa distribusi sebelumnya yang diberikan dalam contoh Wassermans, sama dengan mengamati salinan Iid dari X yang sama dengan 0 . Metode frekuentis tidak bisa berurusan dengan sebelumnya, tetapi dapat dianggap sebagai telah membuat 2 pengamatan dari distribusi sampling, satu sama dengan 0 , dan satu sama dengan X . Kedua masalah itu sepenuhnya setara, dan kita sebenarnya bisa memberikan jawaban yang sering muncul untuk pertanyaan itu.( θ | Y) ∼ N( Y, 1 ) X 0 0 X
Karena kita berhadapan dengan distribusi normal dengan varians diketahui, mean adalah statistik cukup untuk membangun interval kepercayaan untuk . Rata-rata sama dengan ¯ x = 0 + Xθ dan memiliki distribusi samplingx¯¯¯= 0 + X2= X2
Jadi CI diberikan oleh:( 1 - α ) %
Tetapi, dengan menggunakan hasil dari contoh 12.8 untuk Wasserman, ia menunjukkan bahwa interval kredibel posterior untuk θ diberikan oleh:( 1 - α ) % θ
.
Di mana . Jadi, memasukkan nilai padaτ2=1memberic=1c = τ21 + τ2 τ2= 1 dan interval yang kredibel menjadi:c = 12
Yang persis sama dengan interval kepercayaan! Jadi setiap cacat dalam cakupan yang ditunjukkan oleh metode Bayesian, tidak diperbaiki dengan menggunakan interval kepercayaan yang sering terjadi! [Jika frequentist memilih untuk mengabaikan prior, maka untuk menjadi perbandingan yang adil, Bayesian juga harus mengabaikan ini sebelumnya, dan menggunakan ketidaktahuan sebelumnya , dan dua interval masih akan sama - keduanya X ± Z α / 2 ) ].p ( θ ) ∝ 1 X± Zα / 2)
Jadi apa yang terjadi di sini? Masalahnya pada dasarnya adalah salah satu dari tidak kuatnya distribusi sampling normal. karena masalahnya setara dengan sudah mengamati salinan iid, . Jika Anda telah mengamati 0 , maka ini sangat tidak mungkin terjadi jika nilai sebenarnya adalah θ = 4 (probabilitas bahwa X ≤ 0 ketika θ = 4 adalah 0,000032). Ini menjelaskan mengapa cakupan sangat buruk untuk "nilai sejati" yang besar, karena mereka secara efektif membuat pengamatan implisit yang terkandung dalam outlier sebelumnya.X= 0 0 θ = 4 X≤ 0 θ = 4 . Bahkan Anda dapat menunjukkan bahwa contoh ini pada dasarnya setara dengan menunjukkan bahwa rata-rata aritmatika memiliki fungsi pengaruh yang tidak terbatas.
Generalisasi. Sekarang beberapa orang mungkin mengatakan "tetapi Anda hanya menganggap , yang mungkin merupakan kasus khusus". Ini tidak benar: nilai τ 2 = 1τ= 1 (N=0,1,2,3,...)dapat diartikan sebagai mengamatiNIid salinanXyang semuanya sama dengan0, di sampingXdari pertanyaan. Interval kepercayaan akan memiliki properti cakupan "buruk" yang sama untukθbesar. Tetapi ini menjadi semakin tidak mungkin jika Anda terus mengamati nilai0(dan tidak ada orang yang rasional akan terus khawatir tentang besarθketika Anda terus melihat0).τ2= 1N ( N= 0 , 1 , 2 , 3 , ... ) N X 0 X θ 0 θ 0
sumber
Keith Winstein,
EDIT: Hanya untuk memperjelas, jawaban ini menggambarkan contoh yang diberikan dalam Jawaban Keith Winstein pada Raja dengan permainan statistik yang kejam. Jawaban Bayesian dan Frequentist keduanya menggunakan informasi yang sama, yaitu untuk mengabaikan informasi tentang jumlah koin yang adil dan tidak adil ketika membangun interval. Jika informasi ini tidak diabaikan, frequentist harus menggunakan Beta-Binomial Likelihood yang terintegrasi sebagai distribusi sampel dalam membangun interval Keyakinan, di mana Interval Keyakinan Clopper-Pearson tidak sesuai, dan perlu dimodifikasi. Penyesuaian serupa harus terjadi dalam solusi Bayesian.
EDIT: Saya juga telah mengklarifikasi penggunaan awal clopper Interval Pearson.
EDIT: sayangnya, alfa saya salah jalan, dan interval pearson clopper saya salah. Permintaan maaf saya yang paling rendah kepada @whuber, yang dengan benar menunjukkan hal ini, tetapi pada awalnya saya tidak setuju dan mengabaikannya.
CI Menggunakan metode Clopper Pearson sangat baik
Jika Anda hanya mendapatkan satu pengamatan, maka Interval Clopper Pearson dapat dievaluasi secara analitis. Misalkan koin muncul sebagai "sukses" (kepala) Anda harus memilih sedemikian rupaθ
Ketika probabilitas ini adalah P r ( B i ( 1 , θ ) ≥ 1 ) = θ dan P r ( B i ( 1 , θ ) ≤ 1 ) = 1 , sehingga Clopper Pearson CI menyiratkan bahwa θ ≥ αX= 1 Pr ( B i ( 1 , θ ) ≥ 1 ) = θ Pr ( B i ( 1 , θ ) ≤ 1 ) = 1 (dan yang sepele selalu benar1≥αθ ≥ α2 ) ketikaX=1 ≥ α2 . Ketika X = 0 probabilitas ini adalah P r ( B i ( 1 , θ ) ≥ 0 ) = 1 dan P r ( B i ( 1 , θ ) ≤ 0 ) = 1 - θ , sehingga Clopper Pearson CI menyiratkan bahwa 1 - θ ≥ αX= 1 X= 0 Pr ( B i ( 1 , θ ) ≥ 0 ) = 1 Pr ( B i ( 1 , θ ) ≤ 0 ) = 1 - θ , atauθ≤1-α1 - θ ≥ α2 saatX=0. Jadi untuk CI 95% kita mendapatkan[0,025,1]ketikaX=1, dan[0,0,975]ketikaX=0.θ ≤ 1 - α2 X= 0 [ 0,025 , 1 ] X= 1 [ 0 , 0,975 ] X= 0
Dengan demikian, orang yang menggunakan Interval Kepercayaan Clopper Pearson tidak akan pernah dipenggal. Setelah mengamati interval, pada dasarnya seluruh ruang parameter. Tetapi interval CP melakukan ini dengan memberikan cakupan 100% ke interval yang seharusnya 95%! Pada dasarnya, para Frequentists "menipu" dengan memberikan interval kepercayaan 95% lebih banyak cakupan daripada yang diminta (meskipun siapa yang tidak akan menipu dalam situasi seperti itu? Jika itu saya, saya akan memberikan keseluruhan [0, 1] interval). Jika raja meminta 95% CI secara tepat , metode kerap kali ini akan gagal terlepas dari apa yang sebenarnya terjadi (mungkin ada yang lebih baik?).
Bagaimana dengan Interval Bayesian? (khususnya Bayesian Interval Posterior Desnity Tertinggi (HPD))
Karena kita tahu apriori bahwa kepala dan ekor dapat muncul, seragam sebelumnya adalah pilihan yang masuk akal. Ini memberikan distribusi posterior dari . Sekarang, yang perlu kita lakukan sekarang adalah membuat interval dengan probabilitas posterior 95%. Mirip dengan clopper pearson CI, distribusi Cummulative Beta juga bersifat analitik, sehingga P r ( θ ≥ θ e | x = 1 ) = 1 -(θ|X)∼Beta(1+X,2−X) dan P r ( θ ≤ θ e | x = 0 ) = 1 - ( 1 - θ e ) 2 pengaturan ini ke 0,95 memberikan θ e = √Pr(θ≥θe|x=1)=1−(θe)2 Pr(θ≤θe|x=0)=1−(1−θe)2 ketikaX=1danθ e =1- √θe=0.05−−−−√≈0.224 X=1 ketikaX=0. Jadi dua interval yang kredibel adalah(0,0,776)ketikaX=0dan(0,224,1)ketikaX=1θe=1−0.05−−−−√≈0.776 X=0 (0,0.776) X=0 ( 0,224 , 1 ) X= 1
Dengan demikian Bayesian akan dipenggal kepalanya karena interval Kredibel HPDnya dalam kasus ketika ia mendapatkan koin buruk dan koin Buruk muncul ekor yang akan muncul dengan peluang .11012+ 1× 110≈ 0
Pengamatan pertama, Interval Bayesian lebih kecil dari interval kepercayaan. Hal lain adalah bahwa Bayesian akan lebih dekat dengan cakupan aktual yang dinyatakan, 95%, daripada yang sering terjadi. Bahkan, Bayesian hampir mendekati cakupan 95% seperti yang bisa didapat dalam masalah ini. Dan bertentangan dengan pernyataan Keith, jika koin buruk dipilih, 10 Bayesian dari 100 rata-rata akan kehilangan kepala mereka (tidak semua dari mereka, karena koin buruk harus muncul kepala untuk interval agar tidak mengandung ).0,1
Mengutip interval kepercayaan 95% asli , maka dengan definisi harus ada beberapa kasus (yaitu setidaknya satu) dari interval yang diamati yang tidak mengandung nilai sebenarnya dari parameter . Kalau tidak, bagaimana orang bisa membenarkan tag 95%? Bukankah hanya valid atau tidak valid untuk menyebutnya interval 90%, 50%, 20%, atau bahkan 0%?
Saya tidak melihat betapa sederhana menyatakan "itu sebenarnya berarti 95% atau lebih" tanpa batasan gratis memuaskan. Ini karena solusi matematika yang jelas adalah seluruh ruang parameter, dan masalahnya sepele. misalkan saya ingin 50% CI? jika hanya membatasi negatif palsu maka seluruh ruang parameter adalah CI yang valid dengan hanya menggunakan kriteria ini.
Sebagai penutup, tampaknya agak aneh untuk meminta interval ketidakpastian, dan kemudian mengevaluasi interval itu dengan menggunakan nilai sebenarnya yang kami tidak yakin tentang. Sebuah perbandingan yang "lebih adil", untuk interval kepercayaan dan interval yang kredibel, bagi saya tampaknya seperti kebenaran pernyataan ketidakpastian yang diberikan dengan interval .
sumber
Masalahnya dimulai dengan kalimat Anda:
Ya, bagaimana Anda tahu bahwa prior Anda benar?
Ambil contoh inferensi Bayesian dalam filogeni. Probabilitas setidaknya satu perubahan terkait dengan waktu evolusi (panjang cabang t) dengan rumus
dengan kamu menjadi tingkat substitusi.
Sekarang Anda ingin membuat model evolusi, berdasarkan perbandingan urutan DNA. Intinya, Anda mencoba memperkirakan pohon tempat Anda mencoba memodelkan jumlah perubahan di antara sekuens DNA sedekat mungkin. P di atas adalah peluang setidaknya satu perubahan pada cabang tertentu. Model evolusi menggambarkan peluang perubahan antara dua nukleotida, dan dari model evolusi ini fungsi estimasi diturunkan, baik dengan p sebagai parameter atau dengan t sebagai parameter.
Anda tidak memiliki pengetahuan yang masuk akal dan Anda memilih flat sebelumnya untuk hal. Ini secara inheren menyiratkan penurunan eksponensial sebelum t. (Itu menjadi lebih bermasalah jika Anda ingin menetapkan flat sebelum t. Yang tersirat sebelumnya pada p sangat tergantung pada di mana Anda memotong kisaran t.)
Secara teori, t bisa menjadi tak terbatas, tetapi ketika Anda mengizinkan rentang tak hingga, area di bawah fungsi kerapatannya sama dengan tak terhingga juga, jadi Anda harus menentukan titik pemotongan untuk yang sebelumnya. Sekarang ketika Anda memilih titik pemotongan cukup besar, tidak sulit untuk membuktikan bahwa kedua ujung kenaikan interval yang kredibel, dan pada titik tertentu nilai sebenarnya tidak terkandung dalam interval kredibel lagi. Kecuali Anda memiliki ide yang sangat bagus tentang metode sebelumnya, metode Bayesian tidak dijamin sama atau lebih unggul dari metode lain.
ref: Joseph Felsenstein: Inferring Phylogenies, bab 18
Sebagai tambahan, saya muak dengan pertengkaran Bayesian / Frequentist itu. Keduanya adalah kerangka kerja yang berbeda, dan tidak ada Kebenaran Mutlak. Contoh-contoh klasik pro Bayesian metode selalu berasal dari perhitungan probabilitas, dan tidak satu yang sering akan bertentangan mereka. Argumen klasik terhadap metode Bayesian selalu melibatkan pilihan sewenang-wenang sebelumnya. Dan pastor yang masuk akal pasti mungkin.
Itu semua bermuara pada penggunaan yang benar dari kedua metode pada waktu yang tepat. Saya telah melihat sangat sedikit argumen / perbandingan di mana kedua metode itu diterapkan dengan benar. Asumsi metode apa pun sangat diremehkan dan terlalu sering diabaikan.
EDIT: untuk memperjelas, masalahnya terletak pada kenyataan bahwa estimasi berdasarkan p berbeda dari estimasi berdasarkan t dalam kerangka Bayesian ketika bekerja dengan prior yang tidak informatif (yang dalam beberapa kasus merupakan satu-satunya solusi yang mungkin). Ini tidak benar dalam kerangka kerja ML untuk inferensi filogenetik. Ini bukan masalah yang salah sebelum, itu melekat pada metode ini.
sumber
Interval kepercayaan yang sering mengikat tingkat kesalahan positif (Tipe I kesalahan), dan menjamin cakupan mereka akan dibatasi di bawah ini oleh parameter kepercayaan, bahkan dalam kasus terburuk. Interval kredibilitas Bayesian tidak.
Jadi, jika hal yang Anda pedulikan adalah positif palsu dan Anda harus mengikatnya, interval kepercayaan adalah pendekatan yang ingin Anda gunakan.
Sebagai contoh, katakanlah Anda memiliki raja jahat dengan pengadilan yang terdiri dari 100 anggota istana dan pelacur dan ia ingin memainkan permainan statistik yang kejam dengan mereka. Raja memiliki sekantong triliun koin yang adil, ditambah satu koin yang tidak adil yang kemungkinan kepalanya 10%. Dia akan melakukan permainan berikut. Pertama, dia akan menggambar koin secara acak dari tas.
Kemudian koin tersebut akan diedarkan di sekitar ruangan yang terdiri dari 100 orang dan masing-masing akan dipaksa untuk melakukan eksperimen di atasnya, secara pribadi, dan kemudian setiap orang akan menyatakan interval ketidakpastian 95% pada apa yang mereka pikirkan kemungkinan kepala koin itu.
Siapa pun yang memberikan interval yang mewakili false positive - yaitu interval yang tidak mencakup nilai sebenarnya dari probabilitas kepala - akan dipenggal.
Jika kita ingin mengekspresikan fungsi distribusi posteriori / probabilitas dari berat koin, maka tentu saja interval kredibilitas adalah apa yang melakukan itu. Jawabannya akan selalu berupa interval [0,5, 0,5] terlepas dari hasilnya. Bahkan jika Anda membalik kepala nol atau satu kepala, Anda masih akan mengatakan [0,5, 0,5] karena itu adalah kemungkinan yang jauh lebih besar bahwa raja menarik koin yang adil dan Anda memiliki 1/1024 hari mendapatkan sepuluh kepala berturut-turut , selain itu raja menggambar koin yang tidak adil.
Jadi ini bukan ide yang baik untuk digunakan para abdi dalem dan pelacur! Karena ketika koin yang tidak adil ditarik, seluruh ruangan (semua 100 orang) akan salah dan mereka semua akan dipenggal.
Di dunia ini di mana hal yang paling penting adalah false positive, yang kita butuhkan adalah jaminan absolut bahwa laju false positive akan kurang dari 5%, tidak peduli koin mana yang diambil. Maka kita perlu menggunakan interval kepercayaan, seperti Blyth-Still-Casella atau Clopper-Pearson, yang bekerja dan menyediakan setidaknya 95% cakupan terlepas dari nilai sebenarnya dari parameter, bahkan dalam kasus terburuk . Jika semua orang menggunakan metode ini, maka tidak peduli koin mana yang diambil, pada akhirnya kami dapat menjamin bahwa jumlah orang yang salah yang diharapkan tidak akan lebih dari lima.
Jadi intinya adalah: jika kriteria Anda mengharuskan terikat positif palsu (atau setara, jaminan cakupan), Anda harus pergi dengan interval kepercayaan. Itu yang mereka lakukan. Interval kredibilitas mungkin merupakan cara yang lebih intuitif untuk mengungkapkan ketidakpastian, mereka mungkin berkinerja cukup baik dari analisis yang sering terjadi, tetapi mereka tidak akan memberikan jaminan yang dijamin pada positif palsu yang akan Anda dapatkan ketika Anda memintanya.
(Tentu saja jika Anda juga peduli dengan negatif palsu, Anda akan memerlukan metode yang membuat jaminan tentang hal itu juga ...)
sumber
Bernardo mengusulkan "referensi sebelum" untuk digunakan sebagai standar untuk komunikasi ilmiah [dan bahkan "referensi interval kredibel" ( Bernardo - wilayah kredibel objektif )]. Dengan asumsi ini adalah "pendekatan" Bayesian, sekarang pertanyaannya adalah: kapan interval lebih unggul dari yang lain? Properti frequentist dari interval Bayesian tidak selalu optimal, tetapi tidak juga properti Bayesian dari interval frequentist
(omong-omong, apa itu "frequentist interval"?)
sumber