Memahami konjugat Beta sebelumnya dalam inferensi Bayesian tentang frekuensi

11

Berikut ini adalah kutipan dari Pengantar Bolstad untuk Statistik Bayesian .

Saya sedang membaca t

Untuk Anda yang ahli di luar sana, ini mungkin sepele tapi saya tidak mengerti bagaimana penulis menyimpulkan bahwa kami tidak perlu melakukan integrasi untuk menghitung probabilitas posterior untuk beberapa nilai . Saya mengerti ungkapan kedua yang proporsionalitas dan dari mana semua istilah itu berasal ( kemungkinan x Sebelumnya) . Selain itu, saya mengerti, kita tidak perlu khawatir tentang penyebutnya karena hanya pembilangnya yang berbanding lurus. Tetapi beralih ke persamaan ketiga , bukankah kita lupa tentang penyebut Aturan Bayes? Kemana perginya ? Dan nilai yang dihitung oleh fungsi Gamma, bukankah itu konstan? Bukankah konstanta membatalkan teorema Bayes?π

Jenna Maiz
sumber
5
Hanya ada satu konstanta yang mungkin, yaitu yang membuat fungsi menjadi probabilitas kepadatan.
Xi'an

Jawaban:

10

Intinya adalah bahwa kita tahu apa yang posterior sebanding dengan dan kebetulan bahwa kita tidak perlu melakukan integrasi untuk mendapatkan penyebut (konstan), karena kami menyadari bahwa distribusi dengan fungsi kerapatan probabilitas sebanding dengan (seperti posterior) adalah distribusi beta. Karena konstanta normalisasi untuk beta pdf tersebut adalah , kami mendapatkan pdf posterior tanpa integrasi. Dan ya, konstanta normalisasi dalam teorema Bayes adalah konstanta (mengingat data yang diamati dan asumsi sebelumnya) seperti konstanta normalisasi untuk kerapatan posterior.Γ ( α + β )xα1×(1x)β1Γ(α+β)Γ(α)Γ(β)

Björn
sumber
8

Pengaturan

Anda memiliki model ini: Kepadatan yang f(p)=1

pbeta(α,β)x|pbinomial(n,p)
dan dalam catatan khusus yang
f(p)=1B(α,β)pα1(1p)β1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

Versi implisit

Sekarang. Distribusi posterior sebanding dengan sebelumnya dikalikan dengan kemungkinan . Kita dapat mengabaikan konstanta (yaitu hal-hal yang bukan ), menghasilkan: g p h ( pfgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

Ini memiliki 'bentuk' dari distribusi beta dengan parameter dan , dan kita tahu apa konstanta normalisasi terkait untuk distribusi beta dengan parameter tersebut adalah: . Atau, dalam hal fungsi gamma, Dengan kata lain kita bisa melakukan sedikit lebih baik daripada hubungan proporsional tanpa kerja keras tambahan, dan langsung menuju kesetaraan: α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Jadi seseorang dapat menggunakan pengetahuan tentang struktur distribusi beta untuk dengan mudah memulihkan ekspresi posterior, daripada melalui beberapa integrasi yang berantakan dan sejenisnya.

Ini semacam berkeliling ke posterior penuh dengan secara implisit membatalkan konstanta normalisasi distribusi bersama, yang dapat membingungkan.

Versi eksplisit

Anda juga bisa mengerjakan sesuatu secara prosedural, yang bisa lebih jelas.

Sebenarnya tidak terlalu lama. Perhatikan bahwa kita dapat mengekspresikan distribusi bersama sebagai dan distribusi marginal sebagai

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

Jadi kita dapat mengekspresikan posterior menggunakan teorema Bayes dengan yang merupakan hal yang sama yang kita dapatkan sebelumnya.

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1
jtobin
sumber
7

Keterangan Umum

Untuk membuat jawaban yang diberikan oleh @ Björn sedikit lebih eksplisit dan pada saat yang sama lebih umum, kita harus ingat bahwa kami tiba di Teorema Bayes dari

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Bayes Thereom)

di mana mewakili data yang diamati dan parameter tidak diketahui kami, kami ingin membuat kesimpulan probabilistik tentang - dalam kasus pertanyaan parameter adalah frekuensi yang tidak diketahui . Jangan khawatir untuk sekarang apakah kita berbicara tentang vektor atau skalar agar tetap sederhana.Xθπ

Marginalisasi dalam kasus kontinu mengarah pada

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

di mana distribusi gabungan sama dengan seperti yang telah kita lihat di atas. Ini adalah konstanta karena setelah 'mengintegrasikan' parameter itu hanya tergantung pada syarat konstan .p(X,θ)likelihood×prior

Oleh karena itu kita dapat memformulasikan Teorema Bayes sebagai

p(θ|X)=Const.×p(X|θ)×p(θ) denganConst.=1p(X)=1p(X|θ)×p(θ)dθ

dan dengan demikian sampai pada bentuk proporsionalitas biasa dari Bayes Theorem .

Aplikasi untuk masalah tangan

Sekarang kita siap untuk cukup memasukkan apa yang kita ketahui karena dalam kasus pertanyaan adalah dari formulirlikelihood×prior

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

di mana , dan di mana mengumpulkan istilah konstan dari kemungkinan binomial dan beta sebelumnya.a=a+yb=b+nyA=1B(a,b)(ny)

Kita sekarang dapat menggunakan jawaban yang diberikan oleh @ Björn untuk menemukan bahwa ini terintegrasi ke fungsi Beta dikalikan pengumpulan suku konstan sehinggaB(a,b)A

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Perhatikan, bahwa setiap istilah konstan dalam distribusi bersama akan selalu dibatalkan, karena akan muncul di nominator dan penyebut pada saat yang sama (lih. Jawaban yang diberikan oleh @jtobin) sehingga kita benar-benar tidak perlu repot.

Dengan demikian kami menyadari bahwa distribusi posterior kami sebenarnya adalah distribusi beta di mana kami dapat dengan mudah memperbarui parameter sebelumnya dan untuk sampai di posterior. Inilah sebabnya mengapa beta terdistribusi sebelum disebut konjugat sebelumnya .b = b + n - ya=a+yb=b+ny

gwr
sumber
Alasan ini mirip dengan versi implisit jtobin. Kami hanya melihat bagian dari kemungkinan kali sebelumnya yang berisi parameter dan mengumpulkan semua yang lainnya dalam konstanta normalisasi. Jadi kita melihat integrasi hanya sebagai langkah terakhir yang sah, karena konstanta dibatalkan seperti yang telah ditunjukkan jtobin dalam versi eksplisitnya.
gwr