Adakah contoh di mana interval kredibel Bayesian jelas lebih rendah daripada interval kepercayaan yang sering terjadi

81

Sebuah pertanyaan baru tentang perbedaan antara interval kepercayaan dan interval yang dapat dipercaya membuat saya mulai membaca kembali artikel Edwin Jaynes tentang topik itu:

Jaynes, ET, 1976. `Interval Keyakinan vs Interval Bayesian, 'dalam Fondasi Teori Probabilitas, Statistik Inferensi, dan Teori Statistik Sains, WL Harper dan CA Hooker (eds.), D. Reidel, Dordrecht, p. 175; ( pdf )

Dalam abstrak, Jaynes menulis:

... kami menunjukkan solusi Bayesian dan ortodoks untuk enam masalah statistik umum yang melibatkan interval kepercayaan (termasuk tes signifikansi berdasarkan alasan yang sama). Dalam setiap kasus, kami menemukan situasinya justru sebaliknya, yaitu metode Bayesian lebih mudah diterapkan dan menghasilkan hasil yang sama atau lebih baik. Memang, hasil ortodoks memuaskan hanya ketika mereka setuju (atau tepatnya) dengan hasil Bayesian. Belum ada contoh sebaliknya yang dihasilkan.

(penekanan milikku)

Makalah ini diterbitkan pada tahun 1976, jadi mungkin banyak hal telah berubah. Pertanyaan saya adalah, adakah contoh di mana interval kepercayaan frequentist jelas lebih unggul daripada interval kredibel Bayesian (sesuai tantangan yang secara implisit dibuat oleh Jaynes)?

Contoh yang didasarkan pada asumsi yang salah sebelumnya tidak dapat diterima karena mereka tidak mengatakan apa pun tentang konsistensi internal dari berbagai pendekatan.

Dikran Marsupial
sumber
21
Dengan asumsi yang agak ringan, (a) prosedur estimasi Bayesian dapat diterima dan (b) semua, atau hampir semua, estimator yang dapat diterima adalah Bayesian sehubungan dengan beberapa hal sebelumnya. Jadi, tidak mengherankan bahwa interval kepercayaan Bayesian "menghasilkan hasil yang sama atau lebih baik." Perhatikan bahwa pernyataan saya (a) dan (b) adalah bagian dari analisis teori keputusan rasional yang sering dilakukan. Di mana frequentist berpisah dengan Bayesians bukan karena matematika atau bahkan prosedur statistik, tetapi menyangkut arti, pembenaran, dan penggunaan yang benar dari prior untuk masalah tertentu.
whuber
1
Jadi, apakah komentar di atas menyiratkan bahwa jawaban untuk pertanyaan OP adalah 'Tidak ada contoh seperti itu dapat dibangun.'? Atau mungkin, ada beberapa contoh patologis yang melanggar asumsi di balik penerimaan?
1
@ Srikant: Pertanyaan bagus. Saya pikir tempat untuk memulai investigasi adalah situasi di mana ada penaksir yang dapat diterima non-Bayes - belum tentu yang "patologis", tetapi setidaknya satu yang menyediakan beberapa peluang untuk menemukan "contoh sebaliknya."
whuber
2
Saya akan menambahkan beberapa kejelasan pada "asumsi sebelumnya yang salah ..." dengan menyatakan bahwa jawaban Bayesian dan jawaban yang sering digunakan harus menggunakan informasi yang sama , jika tidak, Anda hanya membandingkan jawaban untuk dua pertanyaan yang berbeda. Pertanyaan besar (+1 dari saya)
probabilityislogic
3
Patologi atau bukan, itu mungkin yang pertama dari jenisnya. Saya sangat ingin melihat contoh ini, karena "patologi" ini biasanya memiliki elemen pembelajaran yang baik untuk mereka
probabilityislogic

Jawaban:

52

Saya katakan sebelumnya bahwa saya akan mencoba menjawab pertanyaan, jadi begini ...

Jaynes menjadi sedikit nakal di makalahnya bahwa interval kepercayaan yang sering terjadi tidak didefinisikan sebagai interval di mana kita mungkin mengharapkan nilai sebenarnya dari statistik terletak pada probabilitas yang tinggi (ditentukan), sehingga tidak terlalu mengejutkan bahwa kontradiksi muncul jika mereka ditafsirkan seolah-olah mereka. Masalahnya adalah bahwa ini sering kali cara interval kepercayaan digunakan dalam praktik, karena interval sangat mungkin mengandung nilai sebenarnya (mengingat apa yang dapat kita simpulkan dari sampel data kami) adalah apa yang sering kita inginkan.

Masalah utama bagi saya adalah bahwa ketika sebuah pertanyaan diajukan, yang terbaik adalah memiliki jawaban langsung untuk pertanyaan itu. Apakah interval kredibilitas Bayesian lebih buruk daripada interval kepercayaan frequentist tergantung pada pertanyaan apa yang sebenarnya ditanyakan. Jika pertanyaan yang diajukan adalah:

(a) "Beri saya waktu interval di mana nilai sebenarnya dari statistik terletak pada probabilitas p", maka tampaknya seorang frequentist tidak dapat benar-benar menjawab pertanyaan itu secara langsung (dan ini memperkenalkan jenis masalah yang dibahas oleh Jaynes dalam makalahnya), tetapi Bayesian dapat, itulah sebabnya interval kredibel Bayesian lebih unggul daripada interval kepercayaan sering dalam contoh yang diberikan oleh Jaynes. Tapi ini hanya karena itu adalah "pertanyaan yang salah" untuk sering.

(B) "Beri saya interval di mana, jika percobaan diulang berkali-kali, nilai sebenarnya dari statistik akan berada dalam p * 100% dari interval seperti itu" maka jawaban yang sering terjadi adalah apa yang Anda inginkan. Bayesian mungkin juga dapat memberikan jawaban langsung untuk pertanyaan ini (meskipun mungkin bukan interval yang jelas dan dapat dipercaya). Komentar Whuber pada pertanyaan tersebut menunjukkan bahwa inilah masalahnya.

Jadi pada dasarnya, ini adalah masalah menentukan pertanyaan dengan benar dan mengintepretasikan jawaban dengan benar. Jika Anda ingin mengajukan pertanyaan (a) kemudian gunakan interval Bayesian yang kredibel, jika Anda ingin mengajukan pertanyaan (b) maka gunakan interval kepercayaan yang sering.

Dikran Marsupial
sumber
2
Kata baik, terutama tentang pertanyaan apa yang sebenarnya dijawab oleh CI. Namun dalam artikel Jaynes, ia menyebutkan bahwa CI (dan prosedur yang paling sering) dirancang untuk bekerja dengan baik "Dalam jangka panjang" (misalnya seberapa sering Anda melihat atau "untuk besar dan n distribusi kira-kira. .. "asumsi dalam metode frequentist?), tetapi ada banyak prosedur yang dapat melakukan ini. Saya pikir di sinilah teknik frequentist (konsistensi, bias, konvergensi, dll.) Dapat digunakan untuk menilai berbagai prosedur Bayesian yang sulit untuk diputuskan. n
probabilityislogic
1
"Jaynes sedikit nakal di makalahnya ..." Saya pikir poin yang ingin dibuat oleh Jaynes (atau poin yang saya ambil darinya) adalah bahwa Interval Kepercayaan digunakan untuk menjawab pertanyaan a) dalam sejumlah besar kasus (saya akan berspekulasi bahwa siapa pun yang hanya memiliki pelatihan frequentist akan menggunakan CI untuk menjawab pertanyaan a) dan mereka akan berpikir mereka adalah jawaban frequentist yang sesuai)
probabilityislogic
2
ya, dengan "sedikit nakal" Saya hanya maksudkan bahwa Jaynes mengemukakan maksudnya dengan cara yang agak keliru yang bersifat konfrontatif (tetapi juga menghibur) (atau setidaknya begitulah cara saya membacanya). Tetapi jika dia tidak melakukannya, itu mungkin tidak akan berdampak apa-apa.
Dikran Marsupial
23

Ini adalah contoh "menyempurnakan" yang diberikan dalam sebuah buku yang ditulis oleh Larry Wasserman Semua statistik pada Halaman ( 12.8 Kekuatan dan Kelemahan dari Bayesian Inference ). Saya pada dasarnya memberikan apa yang tidak ditulis oleh Wasserman dalam bukunya 1) penjelasan untuk apa yang sebenarnya terjadi, dan bukannya membuang garis; 2) jawaban yang sering muncul untuk pertanyaan, yang tidak cocok diberikan Wasserman; dan 3) demonstrasi bahwa kepercayaan setara yang dihitung dengan menggunakan informasi yang sama juga mengalami masalah yang sama.

Dalam contoh ini, ia menyatakan situasi berikut

  1. Pengamatan, X, dengan distribusi Sampling: (X|θ)N(θ,1)
  2. Distribusi sebelum (ia benar-benar menggunakan τ 2 umum untuk varians, tetapi diagram yang dikhususkan untuk τ 2 = 1 )(θ)N(0,1)τ2τ2=1

Dia kemudian pergi untuk menunjukkan bahwa, menggunakan interval Bayesian 95% kredibel dalam pengaturan ini akhirnya memiliki cakupan sering 0% ketika nilai sebenarnya dari menjadi besar secara sewenang-wenang. Misalnya, ia memberikan grafik cakupan (hal218), dan memeriksa dengan mata, ketika nilai sebenarnya dari θ adalah 3, cakupannya adalah sekitar 35%. Dia kemudian melanjutkan dengan mengatakan:θθ

... Apa yang harus kita simpulkan dari semua ini? Yang penting adalah untuk memahami bahwa metode frequentist dan Bayesian menjawab pertanyaan yang berbeda. Untuk menggabungkan kepercayaan sebelumnya dengan data dengan cara berprinsip, gunakan inferensi Bayesian. Untuk membuat prosedur dengan kinerja jangka panjang yang dijamin, seperti interval kepercayaan, gunakan metode frequentist ... (hal217)

Dan kemudian melanjutkan tanpa diseksi atau penjelasan tentang mengapa metode Bayesian tampil sangat buruk. Lebih jauh, dia tidak memberikan jawaban dari pendekatan frequentist, hanya pernyataan sikat yang luas tentang "jangka panjang" - taktik politik klasik (menekankan kekuatan Anda + kelemahan orang lain, tetapi jangan pernah membandingkan suka untuk suka).

Saya akan menunjukkan bagaimana masalah sebagaimana dinyatakan dapat dirumuskan dalam istilah frequentist / orthodox, dan kemudian menunjukkan bahwa hasil menggunakan interval kepercayaan memberikan jawaban yang persis sama dengan yang Bayesian . Dengan demikian setiap cacat dalam Bayesian (nyata atau yang dirasakan) tidak diperbaiki dengan menggunakan interval kepercayaan.τ=1

Oke, begini saja. Pertanyaan pertama yang saya tanyakan adalah kondisi pengetahuan seperti apa yang dijelaskan oleh ? Jika seseorang "bodoh" tentang θ , maka cara yang tepat untuk mengekspresikan ini adalah p ( θ ) 1 . Sekarang anggaplah bahwa kami bodoh, dan kami mengamati Y ~ N ( θ , 1 ) , secara independen dari X . Apa yang akan posterior kami untuk θ menjadi?θN(0,1)θhal(θ)1YN(θ,1)Xθ

hal(θ|Y)hal(θ)hal(Y|θ)exhal(-12(Y-θ)2)

Jadi . Ini berarti bahwa distribusi sebelumnya yang diberikan dalam contoh Wassermans, sama dengan mengamati salinan Iid dari X yang sama dengan 0 . Metode frekuentis tidak bisa berurusan dengan sebelumnya, tetapi dapat dianggap sebagai telah membuat 2 pengamatan dari distribusi sampling, satu sama dengan 0 , dan satu sama dengan X . Kedua masalah itu sepenuhnya setara, dan kita sebenarnya bisa memberikan jawaban yang sering muncul untuk pertanyaan itu.(θ|Y)N(Y,1)X00X

Karena kita berhadapan dengan distribusi normal dengan varians diketahui, mean adalah statistik cukup untuk membangun interval kepercayaan untuk . Rata-rata sama dengan ¯ x = 0 + Xθ dan memiliki distribusi samplingx¯=0+X2=X2

(x¯|θ)N(θ,12)

Jadi CI diberikan oleh:(1-α)%

12X±Zα/212

Tetapi, dengan menggunakan hasil dari contoh 12.8 untuk Wasserman, ia menunjukkan bahwa interval kredibel posterior untuk θ diberikan oleh:(1-α)%θ

.

cX±cZα/2

Di mana . Jadi, memasukkan nilai padaτ2=1memberic=1c=τ21+τ2τ2=1 dan interval yang kredibel menjadi:c=12

12X±Zα/212

Yang persis sama dengan interval kepercayaan! Jadi setiap cacat dalam cakupan yang ditunjukkan oleh metode Bayesian, tidak diperbaiki dengan menggunakan interval kepercayaan yang sering terjadi! [Jika frequentist memilih untuk mengabaikan prior, maka untuk menjadi perbandingan yang adil, Bayesian juga harus mengabaikan ini sebelumnya, dan menggunakan ketidaktahuan sebelumnya , dan dua interval masih akan sama - keduanya X ± Z α / 2 ) ].hal(θ)1X±Zα/2)

Jadi apa yang terjadi di sini? Masalahnya pada dasarnya adalah salah satu dari tidak kuatnya distribusi sampling normal. karena masalahnya setara dengan sudah mengamati salinan iid, . Jika Anda telah mengamati 0 , maka ini sangat tidak mungkin terjadi jika nilai sebenarnya adalah θ = 4 (probabilitas bahwa X 0 ketika θ = 4 adalah 0,000032). Ini menjelaskan mengapa cakupan sangat buruk untuk "nilai sejati" yang besar, karena mereka secara efektif membuat pengamatan implisit yang terkandung dalam outlier sebelumnya.X=00θ=4X0θ=4. Bahkan Anda dapat menunjukkan bahwa contoh ini pada dasarnya setara dengan menunjukkan bahwa rata-rata aritmatika memiliki fungsi pengaruh yang tidak terbatas.

Generalisasi. Sekarang beberapa orang mungkin mengatakan "tetapi Anda hanya menganggap , yang mungkin merupakan kasus khusus". Ini tidak benar: nilai τ 2 = 1τ=1 (N=0,1,2,3,...)dapat diartikan sebagai mengamatiNIid salinanXyang semuanya sama dengan0, di sampingXdari pertanyaan. Interval kepercayaan akan memiliki properti cakupan "buruk" yang sama untukθbesar. Tetapi ini menjadi semakin tidak mungkin jika Anda terus mengamati nilai0(dan tidak ada orang yang rasional akan terus khawatir tentang besarθketika Anda terus melihat0).τ2=1N (N=0,1,2,3,...)NX0Xθ0θ0

probabilityislogic
sumber
1
Terima kasih untuk analisisnya. AFAICS ini hanyalah contoh dari masalah yang disebabkan oleh asumsi yang salah (informatif) sebelumnya dan tidak mengatakan apa-apa tentang konsistensi internal dari pendekatan Bayesian?
Dikran Marsupial
1
Tidak, prior tidak selalu salah, kecuali seseorang tidak benar-benar mengamati nilai sebelum melakukan percobaan (atau mendapatkan pengetahuan yang setara). Ini pada dasarnya berarti bahwa, ketika θ benar menjadi besar secara sewenang-wenang, probabilitas untuk mengamati pengamatan implisit ini menjadi kecil secara sewenang-wenang (seperti mendapatkan "sampel tidak beruntung"). 0θ
probabilityislogic
Anda dapat melihat dengan mencatat bahwa sampel terdiri dari pengamatan di dan satu lagi di X . 0 diperbaiki (karena telah diamati), tetapi X akan "dekat" dengan θ dalam banyak kasus. Jadi ketika θ menjadi besar, rata-rata sampel semakin jauh dari X dan 0 , dan karena variansnya tetap, lebar CI diperbaiki, sehingga akhirnya tidak akan mengandung X atau 0 , dan karenanya tidak menjadi dekat salah satu dari dua kemungkinan nilai θ (untuk salah satunya adalah pencilan ketika mereka menjadi berjauhan, untuk diperbaiki θ )0X0XθθX0X0θθ
probabilityislogic
10

Keith Winstein,

EDIT: Hanya untuk memperjelas, jawaban ini menggambarkan contoh yang diberikan dalam Jawaban Keith Winstein pada Raja dengan permainan statistik yang kejam. Jawaban Bayesian dan Frequentist keduanya menggunakan informasi yang sama, yaitu untuk mengabaikan informasi tentang jumlah koin yang adil dan tidak adil ketika membangun interval. Jika informasi ini tidak diabaikan, frequentist harus menggunakan Beta-Binomial Likelihood yang terintegrasi sebagai distribusi sampel dalam membangun interval Keyakinan, di mana Interval Keyakinan Clopper-Pearson tidak sesuai, dan perlu dimodifikasi. Penyesuaian serupa harus terjadi dalam solusi Bayesian.

EDIT: Saya juga telah mengklarifikasi penggunaan awal clopper Interval Pearson.

EDIT: sayangnya, alfa saya salah jalan, dan interval pearson clopper saya salah. Permintaan maaf saya yang paling rendah kepada @whuber, yang dengan benar menunjukkan hal ini, tetapi pada awalnya saya tidak setuju dan mengabaikannya.

CI Menggunakan metode Clopper Pearson sangat baik

Jika Anda hanya mendapatkan satu pengamatan, maka Interval Clopper Pearson dapat dievaluasi secara analitis. Misalkan koin muncul sebagai "sukses" (kepala) Anda harus memilih sedemikian rupaθ

[Pr(Bi(1,θ)X)α2][Pr(Bi(1,θ)X)α2]

Ketika probabilitas ini adalah P r ( B i ( 1 , θ ) 1 ) = θ dan P r ( B i ( 1 , θ ) 1 ) = 1 , sehingga Clopper Pearson CI menyiratkan bahwa θ αX=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1 (dan yang sepele selalu benar1αθα2 ) ketikaX=1α2 . Ketika X = 0 probabilitas ini adalah P r ( B i ( 1 , θ ) 0 ) = 1 dan P r ( B i ( 1 , θ ) 0 ) = 1 - θ , sehingga Clopper Pearson CI menyiratkan bahwa 1 - θ αX=1X=0Pr(Bsaya(1,θ)0)=1Pr(Bsaya(1,θ)0)=1-θ , atauθ1-α1-θα2 saatX=0. Jadi untuk CI 95% kita mendapatkan[0,025,1]ketikaX=1, dan[0,0,975]ketikaX=0.θ1-α2X=0[0,025,1]X=1[0,0,975]X=0

Dengan demikian, orang yang menggunakan Interval Kepercayaan Clopper Pearson tidak akan pernah dipenggal. Setelah mengamati interval, pada dasarnya seluruh ruang parameter. Tetapi interval CP melakukan ini dengan memberikan cakupan 100% ke interval yang seharusnya 95%! Pada dasarnya, para Frequentists "menipu" dengan memberikan interval kepercayaan 95% lebih banyak cakupan daripada yang diminta (meskipun siapa yang tidak akan menipu dalam situasi seperti itu? Jika itu saya, saya akan memberikan keseluruhan [0, 1] interval). Jika raja meminta 95% CI secara tepat , metode kerap kali ini akan gagal terlepas dari apa yang sebenarnya terjadi (mungkin ada yang lebih baik?).

Bagaimana dengan Interval Bayesian? (khususnya Bayesian Interval Posterior Desnity Tertinggi (HPD))

Karena kita tahu apriori bahwa kepala dan ekor dapat muncul, seragam sebelumnya adalah pilihan yang masuk akal. Ini memberikan distribusi posterior dari . Sekarang, yang perlu kita lakukan sekarang adalah membuat interval dengan probabilitas posterior 95%. Mirip dengan clopper pearson CI, distribusi Cummulative Beta juga bersifat analitik, sehingga P r ( θ θ e | x = 1 ) = 1 -(θ|X)Beta(1+X,2X) dan P r ( θ θ e | x = 0 ) = 1 - ( 1 - θ e ) 2 pengaturan ini ke 0,95 memberikan θ e = Pr(θθe|x=1)=1(θe)2Pr(θθe|x=0)=1(1θe)2ketikaX=1danθ e =1-θe=0.050.224X=1ketikaX=0. Jadi dua interval yang kredibel adalah(0,0,776)ketikaX=0dan(0,224,1)ketikaX=1θe=10.050.776X=0(0,0.776)X=0(0,224,1)X=1

Dengan demikian Bayesian akan dipenggal kepalanya karena interval Kredibel HPDnya dalam kasus ketika ia mendapatkan koin buruk dan koin Buruk muncul ekor yang akan muncul dengan peluang .11012+1×1100

Pengamatan pertama, Interval Bayesian lebih kecil dari interval kepercayaan. Hal lain adalah bahwa Bayesian akan lebih dekat dengan cakupan aktual yang dinyatakan, 95%, daripada yang sering terjadi. Bahkan, Bayesian hampir mendekati cakupan 95% seperti yang bisa didapat dalam masalah ini. Dan bertentangan dengan pernyataan Keith, jika koin buruk dipilih, 10 Bayesian dari 100 rata-rata akan kehilangan kepala mereka (tidak semua dari mereka, karena koin buruk harus muncul kepala untuk interval agar tidak mengandung ). 0,1

0,0250,975

Mengutip interval kepercayaan 95% asli , maka dengan definisi harus ada beberapa kasus (yaitu setidaknya satu) dari interval yang diamati yang tidak mengandung nilai sebenarnya dari parameter . Kalau tidak, bagaimana orang bisa membenarkan tag 95%? Bukankah hanya valid atau tidak valid untuk menyebutnya interval 90%, 50%, 20%, atau bahkan 0%?

Saya tidak melihat betapa sederhana menyatakan "itu sebenarnya berarti 95% atau lebih" tanpa batasan gratis memuaskan. Ini karena solusi matematika yang jelas adalah seluruh ruang parameter, dan masalahnya sepele. misalkan saya ingin 50% CI? jika hanya membatasi negatif palsu maka seluruh ruang parameter adalah CI yang valid dengan hanya menggunakan kriteria ini.

100%X=0100×1012+9101012+1%>95%X=1

Sebagai penutup, tampaknya agak aneh untuk meminta interval ketidakpastian, dan kemudian mengevaluasi interval itu dengan menggunakan nilai sebenarnya yang kami tidak yakin tentang. Sebuah perbandingan yang "lebih adil", untuk interval kepercayaan dan interval yang kredibel, bagi saya tampaknya seperti kebenaran pernyataan ketidakpastian yang diberikan dengan interval .

probabilityislogic
sumber
α1-α
1012α1-α
1012α1-α saat satu 1 observasi. Sisi "membalik" ketika X = 1 ke X = 0, itulah sebabnya ada1α21-θθ
Maksud Anda jawaban @Keith Winstein?
whuber
@whuber, ya maksudku jawaban Keith winstein.
probabilityislogic
9

Masalahnya dimulai dengan kalimat Anda:

Contoh yang didasarkan pada asumsi yang salah sebelumnya tidak dapat diterima karena mereka tidak mengatakan apa pun tentang konsistensi internal dari berbagai pendekatan.

Ya, bagaimana Anda tahu bahwa prior Anda benar?

Ambil contoh inferensi Bayesian dalam filogeni. Probabilitas setidaknya satu perubahan terkait dengan waktu evolusi (panjang cabang t) dengan rumus

P=1-e-43kamut

dengan kamu menjadi tingkat substitusi.

Sekarang Anda ingin membuat model evolusi, berdasarkan perbandingan urutan DNA. Intinya, Anda mencoba memperkirakan pohon tempat Anda mencoba memodelkan jumlah perubahan di antara sekuens DNA sedekat mungkin. P di atas adalah peluang setidaknya satu perubahan pada cabang tertentu. Model evolusi menggambarkan peluang perubahan antara dua nukleotida, dan dari model evolusi ini fungsi estimasi diturunkan, baik dengan p sebagai parameter atau dengan t sebagai parameter.

Anda tidak memiliki pengetahuan yang masuk akal dan Anda memilih flat sebelumnya untuk hal. Ini secara inheren menyiratkan penurunan eksponensial sebelum t. (Itu menjadi lebih bermasalah jika Anda ingin menetapkan flat sebelum t. Yang tersirat sebelumnya pada p sangat tergantung pada di mana Anda memotong kisaran t.)

Secara teori, t bisa menjadi tak terbatas, tetapi ketika Anda mengizinkan rentang tak hingga, area di bawah fungsi kerapatannya sama dengan tak terhingga juga, jadi Anda harus menentukan titik pemotongan untuk yang sebelumnya. Sekarang ketika Anda memilih titik pemotongan cukup besar, tidak sulit untuk membuktikan bahwa kedua ujung kenaikan interval yang kredibel, dan pada titik tertentu nilai sebenarnya tidak terkandung dalam interval kredibel lagi. Kecuali Anda memiliki ide yang sangat bagus tentang metode sebelumnya, metode Bayesian tidak dijamin sama atau lebih unggul dari metode lain.

ref: Joseph Felsenstein: Inferring Phylogenies, bab 18

Sebagai tambahan, saya muak dengan pertengkaran Bayesian / Frequentist itu. Keduanya adalah kerangka kerja yang berbeda, dan tidak ada Kebenaran Mutlak. Contoh-contoh klasik pro Bayesian metode selalu berasal dari perhitungan probabilitas, dan tidak satu yang sering akan bertentangan mereka. Argumen klasik terhadap metode Bayesian selalu melibatkan pilihan sewenang-wenang sebelumnya. Dan pastor yang masuk akal pasti mungkin.

Itu semua bermuara pada penggunaan yang benar dari kedua metode pada waktu yang tepat. Saya telah melihat sangat sedikit argumen / perbandingan di mana kedua metode itu diterapkan dengan benar. Asumsi metode apa pun sangat diremehkan dan terlalu sering diabaikan.

EDIT: untuk memperjelas, masalahnya terletak pada kenyataan bahwa estimasi berdasarkan p berbeda dari estimasi berdasarkan t dalam kerangka Bayesian ketika bekerja dengan prior yang tidak informatif (yang dalam beberapa kasus merupakan satu-satunya solusi yang mungkin). Ini tidak benar dalam kerangka kerja ML untuk inferensi filogenetik. Ini bukan masalah yang salah sebelum, itu melekat pada metode ini.

Joris Meys
sumber
3
Dimungkinkan untuk tertarik pada perbedaan antara statistik Bayesian dan statistik frequentist tanpa pertengkaran. Penting untuk mengetahui kekurangan serta manfaat dari pendekatan yang disukai. Saya secara khusus mengecualikan prior karena itu bukan masalah dengan kerangka kerja, per se, tetapi hanya masalah GIGO. Hal yang sama berlaku untuk statistik frequentist, misalnya dengan mengasumsikan dan distribusi parametrik yang salah untuk data. Itu tidak akan menjadi kritik metodologi sering, hanya metode tertentu. BTW, saya tidak punya masalah khusus dengan prior yang tidak tepat.
Dikran Marsupial
3
Contoh pertama Jaynes: Tidak ada ahli statistik yang warasnya akan pernah menggunakan F-test dan T-test pada dataset itu. Selain itu, ia membandingkan uji dua sisi dengan P (b> a), yang bukan merupakan hipotesis yang sama yang diuji. Jadi teladannya tidak adil, yang pada dasarnya dia akui kemudian. Selain itu, Anda tidak dapat membandingkan "kerangka kerja". Apa yang sedang kita bicarakan? ML, REML, LS, metode hukuman, ...? interval untuk koefisien, statistik, prediksi, ...? Anda juga dapat bertanya apakah layanan Lutheran setara atau lebih unggul daripada layanan Syiah. Mereka berbicara tentang Tuhan yang sama.
Joris Meys
Bisakah Anda mengklarifikasi apa data Anda dan apa parameter yang akan Anda perkirakan dalam model Anda? Saya agak bingung tentang hal ini. Juga, bisakah Anda menggunakan $$ alih-alih $ untuk memusatkan rumus? Ukuran font sangat kecil sekarang.
@Srikant: Contoh dalam buku Felsensteins didasarkan pada model Jukes-Cantor untuk evolusi DNA. Data adalah urutan DNA. Anda ingin memperkirakan probabilitas perubahan dalam urutan Anda, yang terkait dengan panjang cabang Anda berdasarkan rumus yang disebutkan. Panjang cabang didefinisikan sebagai waktu evolusi: semakin tinggi kesempatan untuk berubah, semakin banyak waktu yang dilewati antara leluhur dan keadaan saat ini. Maaf, tapi saya tidak bisa merangkum seluruh teori di balik inferensi filogenetik ML dan Bayes hanya dalam satu posting. Felsenstein membutuhkan setengah buku untuk itu.
Joris Meys
Saya kira saya hanya ingin Anda mengklarifikasi variabel apa dalam persamaan Anda yang merupakan data dan yang mana parameternya karena tidak jelas dari pos Anda terutama kepada seseorang seperti saya yang merupakan orang luar. Saya masih tersesat, tetapi saya kira saya perlu membaca buku untuk mengetahui lebih lanjut.
8

Interval kepercayaan yang sering mengikat tingkat kesalahan positif (Tipe I kesalahan), dan menjamin cakupan mereka akan dibatasi di bawah ini oleh parameter kepercayaan, bahkan dalam kasus terburuk. Interval kredibilitas Bayesian tidak.

Jadi, jika hal yang Anda pedulikan adalah positif palsu dan Anda harus mengikatnya, interval kepercayaan adalah pendekatan yang ingin Anda gunakan.

Sebagai contoh, katakanlah Anda memiliki raja jahat dengan pengadilan yang terdiri dari 100 anggota istana dan pelacur dan ia ingin memainkan permainan statistik yang kejam dengan mereka. Raja memiliki sekantong triliun koin yang adil, ditambah satu koin yang tidak adil yang kemungkinan kepalanya 10%. Dia akan melakukan permainan berikut. Pertama, dia akan menggambar koin secara acak dari tas.

Kemudian koin tersebut akan diedarkan di sekitar ruangan yang terdiri dari 100 orang dan masing-masing akan dipaksa untuk melakukan eksperimen di atasnya, secara pribadi, dan kemudian setiap orang akan menyatakan interval ketidakpastian 95% pada apa yang mereka pikirkan kemungkinan kepala koin itu.

Siapa pun yang memberikan interval yang mewakili false positive - yaitu interval yang tidak mencakup nilai sebenarnya dari probabilitas kepala - akan dipenggal.

Jika kita ingin mengekspresikan fungsi distribusi posteriori / probabilitas dari berat koin, maka tentu saja interval kredibilitas adalah apa yang melakukan itu. Jawabannya akan selalu berupa interval [0,5, 0,5] terlepas dari hasilnya. Bahkan jika Anda membalik kepala nol atau satu kepala, Anda masih akan mengatakan [0,5, 0,5] karena itu adalah kemungkinan yang jauh lebih besar bahwa raja menarik koin yang adil dan Anda memiliki 1/1024 hari mendapatkan sepuluh kepala berturut-turut , selain itu raja menggambar koin yang tidak adil.

Jadi ini bukan ide yang baik untuk digunakan para abdi dalem dan pelacur! Karena ketika koin yang tidak adil ditarik, seluruh ruangan (semua 100 orang) akan salah dan mereka semua akan dipenggal.

Di dunia ini di mana hal yang paling penting adalah false positive, yang kita butuhkan adalah jaminan absolut bahwa laju false positive akan kurang dari 5%, tidak peduli koin mana yang diambil. Maka kita perlu menggunakan interval kepercayaan, seperti Blyth-Still-Casella atau Clopper-Pearson, yang bekerja dan menyediakan setidaknya 95% cakupan terlepas dari nilai sebenarnya dari parameter, bahkan dalam kasus terburuk . Jika semua orang menggunakan metode ini, maka tidak peduli koin mana yang diambil, pada akhirnya kami dapat menjamin bahwa jumlah orang yang salah yang diharapkan tidak akan lebih dari lima.

Jadi intinya adalah: jika kriteria Anda mengharuskan terikat positif palsu (atau setara, jaminan cakupan), Anda harus pergi dengan interval kepercayaan. Itu yang mereka lakukan. Interval kredibilitas mungkin merupakan cara yang lebih intuitif untuk mengungkapkan ketidakpastian, mereka mungkin berkinerja cukup baik dari analisis yang sering terjadi, tetapi mereka tidak akan memberikan jaminan yang dijamin pada positif palsu yang akan Anda dapatkan ketika Anda memintanya.

(Tentu saja jika Anda juga peduli dengan negatif palsu, Anda akan memerlukan metode yang membuat jaminan tentang hal itu juga ...)

Keith Winstein
sumber
6
Makanan untuk dipikirkan, namun contoh khusus tidak adil karena pendekatan yang sering diperbolehkan untuk mempertimbangkan biaya relatif dari biaya false-positive dan false-negative, tetapi pendekatan Bayesian tidak. Hal yang benar untuk dilakukan menurut teori keputusan Bayesian adalah memberikan interval [0,1] karena tidak ada penalti yang dikaitkan dengan false-negative. Jadi, dalam perbandingan kerangka kerja yang mirip, tidak ada orang Bayesian yang akan dipenggal juga. Masalah tentang mengikat positif palsu memberi saya arahan untuk mencari jawaban atas tantangan Jaynes.
Dikran Marsupial
1
Perhatikan juga bahwa jika koin yang dipilih cukup sering diputar, maka pada akhirnya interval kepercayaan Bayesian akan terpusat pada frekuensi jangka panjang dari kepala untuk koin tertentu daripada pada yang sebelumnya. Jika hidup saya bergantung pada interval yang mengandung probabilitas kepala yang sebenarnya, saya tidak akan membalik koin sekali pun!
Dikran Marsupial
1
Meskipun memiliki sedikit tentang hal ini, contoh ini tidak valid karena kriteria yang digunakan untuk mengukur kesuksesan tidak sama dengan yang tersirat oleh pertanyaan yang diajukan oleh raja. Masalahnya ada pada "tidak peduli koin mana yang ditarik", klausa yang dirancang untuk menjebak metode apa pun yang menggunakan pengetahuan sebelumnya tentang kelangkaan koin bias. Seperti yang terjadi, Bayesains dapat menurunkan batas juga (misalnya batas PAC) dan jika diminta akan melakukannya, dan saya menduga jawabannya akan sama dengan interval Clopper-Pearson. Untuk menjadi tes yang adil, informasi yang sama harus diberikan untuk kedua pendekatan.
Dikran Marsupial
1
Dikran, tidak perlu ada "Bayesians" dan "Frequentists." Itu bukan aliran filsafat yang tidak sesuai yang hanya bisa diikuti oleh satu! Mereka adalah alat matematika yang kemanjurannya dapat ditunjukkan dalam kerangka kerja umum teori probabilitas. Maksud saya adalah JIKA persyaratan mutlak terikat pada positif palsu tidak peduli nilai sebenarnya dari parameter, MAKA interval kepercayaan adalah metode yang mencapai itu. Tentu saja kita semua sepakat tentang aksioma probabilitas yang sama dan jawaban yang sama dapat diturunkan dengan berbagai cara.
Keith Winstein
1
[0,1,0,5]0,10,5100%95%
probabilityislogic
0

Adakah contoh di mana interval kepercayaan frequentist jelas lebih unggul daripada interval kredibel Bayesian (sesuai tantangan yang secara implisit dibuat oleh Jaynes).

θ10θ1θ

Bernardo mengusulkan "referensi sebelum" untuk digunakan sebagai standar untuk komunikasi ilmiah [dan bahkan "referensi interval kredibel" ( Bernardo - wilayah kredibel objektif )]. Dengan asumsi ini adalah "pendekatan" Bayesian, sekarang pertanyaannya adalah: kapan interval lebih unggul dari yang lain? Properti frequentist dari interval Bayesian tidak selalu optimal, tetapi tidak juga properti Bayesian dari interval frequentist
(omong-omong, apa itu "frequentist interval"?)

Stéphane Laurent
sumber
Saya berspekulasi, tetapi saya menduga jawaban ini pasti akan mendapatkan perlakuan yang sama dengan yang dimiliki orang lain. Seseorang hanya akan berdebat ini adalah masalah pilihan yang buruk dari sebelumnya dan bukan dari beberapa kelemahan yang melekat dari prosedur Bayesian, yang dalam pandangan saya sebagian mencoba untuk menghindari kritik yang valid.
kardinal
Komentar @ cardinal cukup benar. Yang sebelumnya di sini tidak sesuai dengan urutan besarnya, membuat kritik sangat lemah. Informasi sebelumnya juga penting bagi frequentist; apa yang diketahui apriori harus ditentukan misalnya perkiraan apa dan statistik uji yang digunakan. Jika pilihan ini didasarkan pada informasi yang salah dengan urutan besarnya, hasil yang buruk harus diharapkan; menjadi Bayesian atau sering tidak masuk ke dalamnya.
tamu
"Teladan" saya bukanlah bagian penting dari jawaban saya. Tapi apa pilihan yang baik sebelum ini? Mudah membayangkan prior yang dukungannya berisi parameter sebenarnya tetapi posterior tidak, sehingga interval frequentist lebih unggul?
Stéphane Laurent
Kardinal dan tamu benar, pertanyaan saya secara eksplisit termasuk "Contoh berdasarkan asumsi yang salah sebelumnya tidak dapat diterima karena mereka tidak mengatakan apa pun tentang konsistensi internal dari pendekatan yang berbeda." untuk alasan yang bagus. Tes yang sering dilakukan dapat didasarkan pada asumsi yang salah dan juga yang Bayesian (kerangka kerja Bayesian menyatakan asumsi secara lebih eksplisit); pertanyaannya adalah apakah kerangka kerjanya memiliki kelemahan. Juga jika nilai sebenarnya ada di prior, tapi bukan di posterior, itu akan menyiratkan bahwa pengamatan mengesampingkan kemungkinan nilai benar menjadi benar!
Dikran Marsupial
1
Mungkin saya harus mengedit jawaban saya dan menghapus "contoh" saya - ini bukan bagian yang serius dari jawaban saya. Jawaban saya terutama adalah tentang arti dari pendekatan Bayesian. Apa yang Anda sebut pendekatan Bayesian? Pendekatan ini membutuhkan pilihan prior subyektif atau menggunakan cara otomatis untuk memilih prior noninformatif? Dalam kasus kedua adalah penting untuk menyebutkan karya Bernardo. Kedua, Anda belum mendefinisikan hubungan "superioritas" antara interval: kapan Anda mengatakan interval lebih unggul dari yang lain?
Stéphane Laurent