Adakah yang bisa menjelaskan prior konjugasi dalam istilah yang paling sederhana?

23

Saya telah mencoba untuk memahami ide konjugasi prior dalam statistik Bayesian untuk sementara waktu tetapi saya tidak mengerti. Adakah yang bisa menjelaskan ide dalam istilah yang paling sederhana, mungkin menggunakan "Gaussian prior" sebagai contoh?

Jenna Maiz
sumber

Jawaban:

23

Sebelum untuk parameter hampir selalu memiliki beberapa bentuk fungsional spesifik (biasanya ditulis dalam bentuk kepadatan). Katakanlah kita membatasi diri pada satu keluarga distribusi tertentu, yang dalam hal memilih sebelumnya kita mengurangi untuk memilih parameter keluarga itu.

Sebagai contoh, pertimbangkan model normal . Untuk kesederhanaan, mari kita ambil seperti yang diketahui. Bagian dari model ini - model untuk data - menentukan fungsi kemungkinan.σ 2YiiidN(μ,σ2)σ2

Untuk melengkapi model Bayesian kami, di sini kami membutuhkan prior untuk .μ

Seperti disebutkan di atas, biasanya kita dapat menentukan beberapa keluarga distribusi untuk prior untuk dan kemudian kita hanya perlu memilih parameter distribusi itu (misalnya, informasi sebelumnya sering mungkin agak kabur - seperti kira-kira di mana kita ingin probabilitas untuk berkonsentrasi - Daripada bentuk fungsional yang sangat spesifik, dan kita mungkin memiliki cukup kebebasan untuk memodelkan apa yang kita inginkan dengan memilih parameter - katakan untuk mencocokkan rata-rata sebelumnya dan varians).μ

Jika ternyata posterior untuk berasal dari keluarga yang sama dengan yang sebelumnya, maka yang sebelumnya dikatakan "konjugat".μ

(Apa yang membuatnya menjadi konjugasi adalah cara menggabungkan dengan kemungkinan)

Jadi dalam hal ini, mari kita ambil Gaussian prior untuk (katakan ). Jika kita melakukan itu, kita melihat bahwa posterior untuk juga Gaussian. Konsekuensinya, prior Gaussian adalah prior konjugat untuk model kami di atas.μ N ( θ , τ 2 ) μμμN(θ,τ2)μ

Itu semua yang ada untuk itu benar-benar - jika posterior berasal dari keluarga yang sama dengan sebelumnya, itu adalah konjugat sebelumnya.

Dalam kasus-kasus sederhana, Anda dapat mengidentifikasi konjugat sebelumnya dengan memeriksa kemungkinan. Sebagai contoh, pertimbangkan kemungkinan binomial; menjatuhkan konstanta, sepertinya kepadatan beta di ; dan karena cara kekuatan p dan ( 1 - p ) bergabung, itu akan dikalikan dengan beta sebelum juga memberikan produk dari kekuatan p dan ( 1 - p ) ... sehingga kita dapat melihat langsung dari kemungkinan bahwa beta akan menjadi konjugat sebelum p dalam kemungkinan binomial.pp(1p)p(1p)p

Dalam kasus Gaussian, paling mudah untuk melihat bahwa hal itu akan terjadi dengan mempertimbangkan kepadatan log dan kemungkinan log; log-likelihood akan kuadratik dalam dan jumlah dua kuadrat adalah kuadrat, sehingga log kuadrat-sebelum + kuadrat log-kemungkinan memberikan posterior kuadratik (masing-masing koefisien dari istilah orde tertinggi tentu saja akan negatif).μ

Glen_b -Reinstate Monica
sumber
9

Jika model Anda milik keluarga eksponensial , yaitu, jika kepadatan distribusi dalam bentuk

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
sehubungan denganukuran mendominasi diberikan(Lebesgue, menghitung, & tc.), di manats menunjukkan suatu skalar produk lebihRd dan
T:XRdS:ΘRd
adalah fungsi yang dapat diukur, prior konjugat padaθ ditentukan oleh kepadatan bentuk
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[sehubungan denganukuran mendominasi yang dipilih secarasewenang-wenangdν padaΘ ] dengan
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
danλΛR+ ,ξΞλT(X)

Pilihan ukuran yang mendominasi sangat menentukan bagi keluarga prior. Jika misalnya seseorang menghadapi kemungkinan rata-rata Normal pada μ seperti dalam jawaban Glen_b , memilih ukuran Lebesgue dμ sebagai ukuran mendominasi menyebabkan nilai Normal terkonjugasi. Jika sebaliknya seseorang memilih (1+μ2)2dμ sebagai ukuran yang mendominasi, prior konjugat berada dalam keluarga distribusi dengan kepadatan

exp{α(μμ0)2}α>0,  μ0R
sehubungan dengan ukuran yang mendominasi ini, dan dengan demikian tidak lagi menjadi prior Normal. Kesulitan ini pada dasarnya sama dengan yang memilih parameterisasi tertentu dari kemungkinan dan memilih untuk ukuran Lebesgue untuk parameterisasi ini. Ketika dihadapkan dengan fungsi kemungkinan, tidak ada ukuran yang mendominasi (atau intrinsik atau referensi) pada ruang parameter.

Di luar pengaturan keluarga eksponensial ini, tidak ada keluarga distribusi non-sepele dengan dukungan tetap yang memungkinkan untuk pasangan konjugasi. Ini adalah konsekuensi dari lemma Darmois-Pitman-Koopman .

Xi'an
sumber
11
"Dalam istilah yang paling sederhana?" Mungkin penjelasan yang tidak mengasumsikan pengetahuan sebelumnya tentang tindakan akan lebih bermanfaat bagi OP.
3
Sayangnya, saya khawatir prior konjugat tidak ada artinya tanpa latar belakang ukuran (meskipun ini adalah rahasia terbaik di Semesta).
Xi'an
6
Menurut pendapat saya, "istilah yang paling sederhana" terbuka untuk interpretasi, dan penjelasan yang menggunakan matematika tingkat lanjut seperti teori ukuran mungkin masih "sederhana" dalam beberapa hal, bahkan mungkin "lebih sederhana" daripada penjelasan yang menghindari mesin semacam itu. Bagaimanapun, penjelasan seperti itu mungkin sangat mencerahkan bagi seseorang yang memiliki latar belakang yang diperlukan untuk memahaminya, dan tidak ada salahnya untuk memasukkan jawaban seperti ini dalam daftar berbagai cara untuk menjelaskan suatu topik. Kami menulis jawaban tidak hanya untuk OP tetapi untuk semua pembaca di masa depan.
littleO
1
@ LBogaardt Kritik Anda akan lebih berbobot jika Anda dapat menautkan ke satu atau lebih pertanyaan di mana Anda pikir jawaban ini akan berada pada topik dan pada tingkat yang lebih cocok. Harap diingat bahwa "sederhana" bukanlah istilah yang didefinisikan dengan baik dan memiliki interpretasi subyektif yang berbeda. Apa pun itu, tidak sah untuk menyamakannya dengan "tidak canggih secara matematis," seperti yang disarankan oleh komentar Anda.
Whuber
2
Jawaban Xi'an tidak berguna bagi saya. Saya belajar sesuatu.
littleO
2

Saya suka menggunakan gagasan "kernel" dari suatu distribusi. Di sinilah Anda hanya meninggalkan bagian-bagian yang bergantung pada parameter. Beberapa contoh sederhana.

Kernel normal

p(μ|a,b)=K1×exp(aμ2+bμ)
Di manaK adalah "konstanta normalisasi"K=exp(aμ2+bμ)dμ=πaexp(b24a) Sambungan dengan parameter mean / varians standar adalahE(μ|a,b)=b2a danVar(μ|a,b)=12a

Kernel beta

p(θ|a,b)=K1×θa(1θ)b
Di manaK=θa(1θ)bdθ=Beta(a+1,b+1)

Ketika kita melihat fungsi kemungkinan, kita dapat melakukan hal yang sama, dan mengekspresikannya dalam "bentuk kernel". Misalnya dengan data iid

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

Untuk beberapa Q konstan dan beberapa fungsi f(μ) . Jika kita dapat mengenali fungsi ini sebagai kernel, maka kita dapat membuat konjugasi sebelum kemungkinan itu. Jika kita mengambil kemungkinan normal dengan varian unit, yang di atas terlihat seperti

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

probabilityislogic
sumber
1
(+1) I appreciate the pseudo-data intuition!
Xi'an
1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior

Thomas G.
sumber
How does this explain what a conjugate prior is?
LBogaardt
ok I'll edit that.
Thomas G.