Sebelum untuk parameter hampir selalu memiliki beberapa bentuk fungsional spesifik (biasanya ditulis dalam bentuk kepadatan). Katakanlah kita membatasi diri pada satu keluarga distribusi tertentu, yang dalam hal memilih sebelumnya kita mengurangi untuk memilih parameter keluarga itu.
Sebagai contoh, pertimbangkan model normal . Untuk kesederhanaan, mari kita ambil seperti yang diketahui. Bagian dari model ini - model untuk data - menentukan fungsi kemungkinan.σ 2Yi∼iidN(μ,σ2)σ2
Untuk melengkapi model Bayesian kami, di sini kami membutuhkan prior untuk .μ
Seperti disebutkan di atas, biasanya kita dapat menentukan beberapa keluarga distribusi untuk prior untuk dan kemudian kita hanya perlu memilih parameter distribusi itu (misalnya, informasi sebelumnya sering mungkin agak kabur - seperti kira-kira di mana kita ingin probabilitas untuk berkonsentrasi - Daripada bentuk fungsional yang sangat spesifik, dan kita mungkin memiliki cukup kebebasan untuk memodelkan apa yang kita inginkan dengan memilih parameter - katakan untuk mencocokkan rata-rata sebelumnya dan varians).μ
Jika ternyata posterior untuk berasal dari keluarga yang sama dengan yang sebelumnya, maka yang sebelumnya dikatakan "konjugat".μ
(Apa yang membuatnya menjadi konjugasi adalah cara menggabungkan dengan kemungkinan)
Jadi dalam hal ini, mari kita ambil Gaussian prior untuk (katakan ). Jika kita melakukan itu, kita melihat bahwa posterior untuk juga Gaussian. Konsekuensinya, prior Gaussian adalah prior konjugat untuk model kami di atas.μ ∼ N ( θ , τ 2 ) μμμ∼N(θ,τ2)μ
Itu semua yang ada untuk itu benar-benar - jika posterior berasal dari keluarga yang sama dengan sebelumnya, itu adalah konjugat sebelumnya.
Dalam kasus-kasus sederhana, Anda dapat mengidentifikasi konjugat sebelumnya dengan memeriksa kemungkinan. Sebagai contoh, pertimbangkan kemungkinan binomial; menjatuhkan konstanta, sepertinya kepadatan beta di ; dan karena cara kekuatan p dan ( 1 - p ) bergabung, itu akan dikalikan dengan beta sebelum juga memberikan produk dari kekuatan p dan ( 1 - p ) ... sehingga kita dapat melihat langsung dari kemungkinan bahwa beta akan menjadi konjugat sebelum p dalam kemungkinan binomial.pp(1−p)p(1−p)p
Dalam kasus Gaussian, paling mudah untuk melihat bahwa hal itu akan terjadi dengan mempertimbangkan kepadatan log dan kemungkinan log; log-likelihood akan kuadratik dalam dan jumlah dua kuadrat adalah kuadrat, sehingga log kuadrat-sebelum + kuadrat log-kemungkinan memberikan posterior kuadratik (masing-masing koefisien dari istilah orde tertinggi tentu saja akan negatif).μ
Saya suka menggunakan gagasan "kernel" dari suatu distribusi. Di sinilah Anda hanya meninggalkan bagian-bagian yang bergantung pada parameter. Beberapa contoh sederhana.
Kernel normalp(μ|a,b)=K−1×exp(aμ2+bμ)
Di manaK adalah "konstanta normalisasi"K=∫exp(aμ2+bμ)dμ=π−a−−−√exp(−b24a)
Sambungan dengan parameter mean / varians standar adalahE(μ|a,b)=−b2a danVar(μ|a,b)=−12a
Kernel betap(θ|a,b)=K−1×θa(1−θ)b
Di manaK=∫θa(1−θ)bdθ=Beta(a+1,b+1)
Ketika kita melihat fungsi kemungkinan, kita dapat melakukan hal yang sama, dan mengekspresikannya dalam "bentuk kernel". Misalnya dengan data iid
Untuk beberapaQ konstan dan beberapa fungsi f(μ) . Jika kita dapat mengenali fungsi ini sebagai kernel, maka kita dapat membuat konjugasi sebelum kemungkinan itu. Jika kita mengambil kemungkinan normal dengan varian unit, yang di atas terlihat seperti
p(D|μ)=∏i=1np(xi|μ)=∏i=1n12π−−√exp(−(xi−μ)22)=[∏i=1n12π−−√]×∏i=1nexp(−(xi−μ)22)=(2π)−n2×exp(−∑i=1n(xi−μ)22)=(2π)−n2×exp(−∑i=1nx2i−2xiμ+μ22)=(2π)−n2×exp(−∑i=1nx2i2)×exp(μ∑i=1nxi−μ2n2)=Q×exp(aμ2+bμ)
wherea=−n2 and b=∑ni=1xi and Q=(2π)−n2×exp(−∑ni=1x2i2)
This likelihood function has the same kernel as the normal distribution forμ , so a conjugate prior for this likelihood is also the normal distribution.
p(μ|a0,b0)=K−10exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)∝K−10exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K−10×Q×exp([a+a0]μ2+[b+b0]μ)∝exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
sumber
For a given distribution familyDlik of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution familyDpri as the posterior (e.g. Beta),
thenDpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note:p(θ|x)posterior∼p(x|θ)likelihood⋅p(θ)prior
sumber