Buku Bayesian karya Kruschke mengatakan, mengenai penggunaan distribusi beta untuk membalik koin,
Misalnya, jika kita tidak memiliki pengetahuan sebelumnya selain pengetahuan bahwa koin memiliki sisi kepala dan sisi ekor, itu sama dengan sebelumnya mengamati satu kepala dan satu ekor, yang sesuai dengan a = 1 dan b = 1.
Mengapa tidak ada informasi sama saja dengan melihat satu kepala dan satu ekor - 0 kepala dan 0 ekor tampaknya lebih alami bagi saya.
probability
bayesian
beta-distribution
Hatshepsut
sumber
sumber
Jawaban:
Kutipan ini adalah "sulap logis" (ekspresi hebat!), Seperti dicatat oleh @whuber dalam komentar kepada OP. Satu-satunya hal yang benar-benar dapat kita katakan setelah melihat bahwa koin memiliki kepala dan ekor, adalah bahwa kedua peristiwa "kepala" dan "ekor" itu tidak mustahil. Jadi kita bisa membuang diskrit sebelumnya yang menempatkan semua massa probabilitas pada "head" atau "tail". Tapi ini tidak mengarah dengan sendirinya pada seragam sebelumnya: pertanyaannya jauh lebih halus. Pertama-tama mari kita meringkas sedikit latar belakang. Kami sedang mempertimbangkan model konjugat Beta-Binominal untuk inferensi Bayesian tentang probabilitas kepala koin, mengingat n lemparan koin independen dan terdistribusi secara identik (kondisional pada θ ).θ n θ ketika kita mengamati x kepala dalam n lemparan:p ( θ | x ) x n
kita dapat mengatakan bahwa dan β berperan sebagai "jumlah kepala sebelumnya" dan "jumlah ekor sebelumnya" (pseudotrials), dan α + β dapat diartikan sebagai ukuran sampel yang efektif. Kita juga bisa sampai pada interpretasi ini dengan menggunakan ekspresi terkenal untuk rata-rata posterior sebagai rata-rata tertimbang dari rata-rata sebelumnya αα β α + β dan mean sampelxαα + β .xn
Melihat , kita dapat membuat dua pertimbangan:p ( θ | x )
Juga, karena adalah rata-rata sebelumnya, dan kami tidak memiliki pengetahuan sebelumnya tentang distribusi θ, kami berharapμprior=0,5. Ini adalah argumen simetri - jika kita tidak tahu yang lebih baik, kita tidak akan mengharapkanaprioribahwa distribusinya condong ke 0 atau ke 1. Distribusi Beta adalahμp r i o r= αα + β θ μp r i o r= 0,5
Ekspresi ini hanya simetris di sekitar jika α = β .θ = 0,5 α = β
Untuk dua alasan ini, apa pun yang sebelumnya (milik keluarga Beta - ingat, model konjugasi!) Yang kami pilih untuk digunakan, kami secara intuitif berharap bahwa dan c adalah "kecil". Kita dapat melihat bahwa ketiga prior non-informatif yang biasa digunakan untuk model Beta-Binomial berbagi sifat-sifat ini, tetapi selain itu, mereka sangat berbeda. Dan ini jelas: tidak ada pengetahuan sebelumnya, atau "ketidaktahuan maksimum", bukan definisi ilmiah, jadi apa jenis sebelumnya mengungkapkan "ketidaktahuan maksimum", yaitu, apa yang sebelumnya tidak informatif, tergantung pada apa yang Anda maksud sebagai "maksimum ketidakpedulian".α = β= c c
kita bisa memilih prior yang mengatakan bahwa semua nilai untuk bisa digunakan, karena kita tidak tahu yang lebih baik. Sekali lagi, argumen simetri. Ini sesuai dengan α = β = 1 :θ α = β= 1
untuk , yaitu seragam yang sebelumnya digunakan oleh Kruschke. Secara lebih formal, dengan menuliskan ekspresi untuk entropi diferensial dari distribusi Beta, Anda dapat melihat bahwa itu dimaksimalkan ketika α = β = 1 . Sekarang, entropi sering ditafsirkan sebagai ukuran "jumlah informasi" yang dibawa oleh suatu distribusi: entropi yang lebih tinggi sesuai dengan informasi yang lebih sedikit. Dengan demikian, Anda bisa menggunakan prinsip entropi maksimum ini untuk mengatakan bahwa, di dalam keluarga Beta, prior yang berisi lebih sedikit informasi (ketidaktahuan maksimum) adalah seragam ini sebelumnya.θ ∈ [ 0 , 1 ] α = β= 1
Anda dapat memilih sudut pandang lain, yang digunakan oleh OP, dan mengatakan bahwa tidak ada informasi yang sesuai dengan tidak melihat kepala dan tidak ada ekor, yaitu,
Sebelum kita mendapatkan cara ini disebut sebelumnya Haldane . Fungsi memiliki sedikit masalah - integral atas I = [ 0 , 1 ] tidak terbatas, yaitu, apa pun konstanta normalisasi, tidak dapat diubah menjadi pdf yang tepat. Sebenarnya, prior Haldane adalah pmf yang tepat , yang menempatkan probabilitas 0,5 pada θ = 0 , 0,5 pada θ = 1 dan 0 probabilitas pada semua nilai lain untuk θθ- 1( 1 - θ )- 1 saya= [ 0 , 1 ] θ = 0 θ = 1 θ . Namun, jangan terbawa suasana - untuk parameter berkelanjutan , prior yang tidak sesuai dengan pdf yang tepat disebut prior yang tidak patut . Karena, seperti disebutkan sebelumnya, semua yang penting untuk inferensi Bayesian adalah distribusi posterior, prior yang tidak patut dapat diterima, selama distribusi posterior tepat. Dalam kasus Haldane sebelumnya, kami dapat membuktikan bahwa pdf posterior tepat jika sampel kami mengandung setidaknya satu keberhasilan dan satu kegagalan. Jadi kita hanya bisa menggunakan Haldane sebelumnya ketika kita mengamati setidaknya satu kepala dan satu ekor. θ
Ada pengertian lain di mana Haldane sebelumnya dapat dianggap tidak informatif: rata-rata distribusi posterior sekarangα + xα + β+ n= xn θ θ
Akhirnya, Anda bisa menggunakan prior yang tidak tergantung pada parametrization masalah, yaitu, Jeffrey sebelumnya, yang untuk model Beta-Binomial sesuai dengan
Untuk meringkas, tidak hanya ada satu pilihan tegas untuk informasi sebelumnya dalam model Beta-Binomial. Apa yang Anda pilih tergantung pada apa yang Anda maksud sebagai nol pengetahuan sebelumnya, dan pada tujuan analisis Anda.
sumber
sumber