Perhitungan kemungkinan marginal dari sampel MCMC

Ini adalah pertanyaan berulang (lihat posting ini , posting ini dan posting ini ), tetapi saya memiliki putaran berbeda.

Misalkan saya memiliki banyak sampel dari sampler MCMC generik. Untuk setiap sampel , saya tahu nilai kemungkinan $\theta$ $\log f(\textbf{x} | \theta)$ dan dari prior . Jika ini membantu, saya juga tahu nilai kemungkinan log per titik data, (informasi ini membantu dengan metode tertentu, seperti WAIC dan PSIS-LOO). $\log f(\theta)$ $\log f(x_i | \theta)$

Saya ingin mendapatkan perkiraan (kasar) dari kemungkinan marjinal, hanya dengan sampel yang saya miliki, dan mungkin beberapa evaluasi fungsi lainnya (tetapi tanpa menjalankan kembali MCMC ad hoc ).

Pertama-tama, mari kita membersihkan meja. Kita semua tahu bahwa estimator harmonik adalah estimator terburuk yang pernah ada . Mari kita lanjutkan. Jika Anda melakukan pengambilan sampel Gibbs dengan prior dan posterior dalam bentuk tertutup, Anda dapat menggunakan metode Chib ; tapi saya tidak yakin bagaimana menggeneralisasi di luar kasus-kasus itu. Ada juga metode yang mengharuskan Anda untuk memodifikasi prosedur pengambilan sampel (seperti via tempered posteriors ), tetapi saya tidak tertarik dengan itu di sini.

Pendekatan yang saya pikirkan terdiri dari perkiraan distribusi yang mendasari dengan bentuk parametrik (atau nonparametrik) $g(\theta)$ , dan kemudian mencari tahu konstanta normalisasi $Z$ sebagai masalah optimasi 1-D (yaitu, $Z$ yang meminimalkan beberapa kesalahan antara $Z g(\theta)$ dan $f(\textbf{x}|\theta) f(\theta)$ , dievaluasi pada sampel). Dalam kasus paling sederhana, misalkan posterior kira-kira multivariat normal, saya dapat memasukkan $g(\theta)$ sebagai multivariat normal dan mendapatkan sesuatu yang mirip dengan perkiraan Laplace (saya mungkin ingin menggunakan beberapa evaluasi fungsi tambahan untuk memperbaiki posisi mode). Namun, saya dapat menggunakan sebagai $g(\theta)$ keluarga yang lebih fleksibel seperti campuran variational dari multivariat $t$ distribusi.

Saya menghargai bahwa metode ini hanya berfungsi jika $Z g(\theta)$ adalah perkiraan yang masuk akal untuk $f(\textbf{x}|\theta) f(\theta)$ , tetapi alasan atau dongeng peringatan mengapa sangat tidak bijaksana untuk lakukan? Adakah bacaan yang akan Anda rekomendasikan?

Pendekatan sepenuhnya nonparametrik menggunakan beberapa keluarga nonparametrik, seperti proses Gaussian (GP), untuk memperkirakan $\log f(\textbf{x}|\theta) + \log f(\theta)$ (atau transformasi nonlinier lainnya, seperti sebagai akar kuadrat), dan quadrature Bayesian untuk secara implisit mengintegrasikan target yang mendasarinya (lihat di sini dan di sini ). Ini tampaknya menjadi pendekatan alternatif yang menarik, tetapi analog dalam semangat (juga, perhatikan bahwa dokter akan sulit dalam kasus saya).

machine-learning bayesian sampling mcmc likelihood Lacerbi
sumber

Saya pikir Chib, S. dan Jeliazkov, I. 2001 "Kemungkinan marjinal dari keluaran Metropolis - Hastings" digeneralisasi ke keluaran MCMC normal - akan tertarik untuk mendengar pengalaman dengan pendekatan ini. Adapun GP - pada dasarnya, ini bermuara pada persaingan posterior, yang Anda juga dapat mempertimbangkan untuk masalah lain. Saya kira masalahnya adalah bahwa Anda tidak pernah yakin tentang kualitas aproksimasi. Yang saya juga ingin tahu adalah apakah sampel MCMC ideal untuk model GP, atau apakah Anda harus berinvestasi lebih banyak di bagian ekor.

Florian Hartig

(+1) Terima kasih untuk referensi, terlihat tepat - Saya akan memeriksanya. Saya setuju bahwa semua pendekatan berbasis model bisa bermasalah (hal yang baik dengan quadrature Bayesian adalah Anda mendapatkan perkiraan ketidakpastian, meskipun tidak yakin seberapa dikalibrasi itu). Untuk saat ini, tujuan sederhana saya adalah melakukan sesuatu yang "lebih baik daripada perkiraan Laplace".

lacerbi

Perpanjangan oleh Chib dan Jeliazkov (2001) sayangnya menjadi cepat mahal atau sangat bervariasi, yang merupakan alasan mengapa itu tidak banyak digunakan di luar kasus sampling Gibbs.

Walaupun ada banyak cara dan pendekatan untuk masalah estimasi konstanta normalisasi (seperti yang diilustrasikan oleh pembicaraan yang cukup beragam dalam lokakarya Estimating Constant yang kami jalankan minggu lalu di University of Warwick, slide tersedia di sana ), beberapa solusi memang mengeksploitasi langsung output MCMC . $\mathfrak{Z}$

Seperti yang Anda sebutkan, penaksir rata-rata harmonik dari Newton dan Raftery (1994) hampir selalu buruk karena memiliki varian yang tak terbatas. Namun, ada cara untuk menghindari kutukan varians tak terbatas dengan menggunakan sebagai gantinya target dukungan yang terbatas dalam identitas rata-rata harmonik dengan memilihsebagai indikator wilayah HPD untuk posterior. Ini memastikan varians yang terbatas dengan menghilangkan ekor di rata-rata harmonik. (Perinciannya dapat ditemukan dalammakalah yang saya tulis dengan Darren Wraithdan dalambab tentang normalisasi konstanta yangditulis dengan Jean-Michel Marin.) Singkatnya, metode ini mendaur ulang output MCMCdengan mengidentifikasi( 20% mengatakan) nilai terbesar dari targetdan menciptakan
$\int \frac{α (θ)}{π (θ) f (x | θ)} d π (θ | x) = \frac{1}{Z}$ $\int \dfrac{\alpha(\theta)}{\pi(\theta)f(x|\theta)}\text{d}\pi(\theta|x)=\frac{1}{\mathfrak{Z}}$ $\alpha$ $\theta_1,\ldots,\theta_M$ $\beta$ $\pi(\theta)f(x|\theta)$ $\alpha$ sebagai seragam atas persatuan bola berpusat pada orang-orang kepadatan terbesar (HPD) simulasi dan dengan radius , berarti estimasi normalisasi konstan diberikan oleh $\theta^0_i$ $\rho$ $\mathfrak{Z}$ jikaadalah dimensi(koreksi berlaku untuk bola berpotongan) dan jikacukup kecil untuk bola tidak pernah berpotongan (berarti bahwa hanya satu indikator terbaik pada bola adalah berbeda dari nol). Penjelasan untukpenyebutadalah bahwa ini adalah jumlah ganda dariistilah: ${\hat{Z}}^{- 1} = \underset{double sum over β M ball centres θ_{i}^{0} and M simulations θ_{m}}{\underset{⏟}{\frac{1}{β M^{2}} \sum_{m = 1}^{M}}} \underset{\frac{β M α (θ_{m})}{π (θ_{m}) f (x | θ_{m})}}{\underset{⏟}{I_{(0, ρ)} (min_{i} | | θ_{m} - θ_{i}^{0} | |) {π (θ_{m}) f (x | θ_{m})}^{- 1} / \overset{volume of ball with radius ρ}{\overset{⏞}{π^{d / 2} ρ^{d} Γ (d / 2 + 1)^{- 1}}}}}$ $\hat{\mathfrak{Z}}^{-1}=\underbrace{\frac{1}{\beta M^2}\sum_{m=1}^M}_{\text{double sum over}\\\beta M\text{ ball centres }\theta_i^0\\\text{and $M$ simulations } \theta_m} \underbrace{\mathbb{I}_{(0,\rho)}(\min_i||\theta_m-\theta^0_i||)\{\pi(\theta_m)f(x|\theta_m)\}^{-1}\big/\overbrace{\pi^{d/2}\rho^d\Gamma(d/2+1)^{-1}}^{\text{volume of ball with radius $\rho$}}}_{\dfrac{\beta M\alpha(\theta_m)}{\pi(\theta_m)f(x|\theta_m)}}$ $d$ $\theta$ $\rho$ $\alpha M^2$ $\beta M^2$ dengan masing-masing istilah dalammengintegrasikan ke. $\frac{1}{β M} \sum_{i = 1}^{β M} \underset{same as with min}{\underset{⏟}{\frac{1}{M} \sum_{m = 1}^{M} U (θ_{i}^{0}, ρ) (θ_{m})}} \times \frac{1}{π (θ_{m}) f (x | θ_{m})}$ $\frac{1}{\beta M}\sum_{i=1}^{\beta M} \underbrace{\frac{1}{M}\sum_{m=1}^M {\cal U}(\theta_i^0,\rho)(\theta_m)}_{\text{same as with $\min$}} \times \frac{1}{\pi(\theta_m)f(x|\theta_m)}$ $\theta_m$ ${\mathfrak{Z}}^{-1}$
Pendekatan lain adalah mengubah konstanta normalisasi menjadi parameter. Ini kedengarannya seperti bid'ah statistik tetapi makalah oleh Guttmann dan Hyvärinen (2012) meyakinkan saya akan hal sebaliknya. Tanpa terlalu banyak ke rincian, ide rapi di dalamnya adalah untuk mengubah diamati log-likelihood menjadi log-likelihood bersama $\mathfrak{Z}$
$\sum_{i = 1}^{n} f (x_{i} | θ) - n \log \int \exp f (x | θ) d x$ $\sum_{i=1}^n f(x_i|\theta) - n \log \int \exp f(x|\theta) \text{d}x$ yang merupakan log-kemungkinan proses titik Poisson dengan fungsi intensitas $\sum_{i = 1}^{n} [f (x_{i} | θ) + ν] - n \int \exp [f (x | θ) + ν] d x$ $\sum_{i=1}^n[f(x_i|\theta)+\nu]-n\int\exp[f(x|\theta)+\nu]\text{d}x$ $\exp {f (x | θ) + ν + \log n}$ $\exp\{ f(x|\theta) + \nu +\log n\}$ Ini adalah model alternatif di mana kemungkinan asli tidak muncul sebagai marginal di atas. Hanya mode yang bertepatan, dengan mode bersyarat di ν yang menyediakan konstanta normalisasi. Dalam praktiknya, kemungkinan proses Poisson di atas tidak tersedia dan Guttmann dan Hyvärinen (2012) menawarkan perkiraan dengan menggunakan regresi logistik. Untuk menghubungkan lebih baik dengan pertanyaan Anda, perkiraan Geyer adalah MLE, maka solusi untuk masalah maksimalisasi.
$\pi(\theta|x)$ $\pi(\theta|x)$ $g(\theta)$ $\pi(\theta|x)$ $g(\theta)$ ). Dengan regresi menjadi nilai-nilai dari kedua kepadatan, dinormalisasi atau tidak. Ini kebetulan terkait langsung dengan jembatan sampel Gelman dan Meng (1997), yang juga mendaur ulang sampel dari target yang berbeda. Dan versi selanjutnya, seperti Meng's MLE.
Pendekatan berbeda yang memaksa seseorang untuk menjalankan sampler MCMC spesifik adalah sampling bersarang Skilling . Sementara saya [dan yang lain] memiliki beberapa keraguan mengenai efisiensi metode ini, metode ini cukup populer dalam astrostatistik dan kosmologi, dengan perangkat lunak yang tersedia seperti multinest .
$H_0: \theta=\theta_0$ $\xi$ $\pi_1(\theta)\pi_2(\xi)$ $H_0$ $B_{01} (x) = \frac{π^{θ} (θ_{0} | x)}{π_{1} (θ_{0})}$ $\mathfrak{B}_{01}(x)=\dfrac{\pi^\theta(\theta_0|x)}{\pi_1(\theta_0)}$ $\pi^\theta(\theta_0|x)$ $\theta$ $\theta_0$ $H_0: \theta=\theta_0$ $m_{0} (x) = \int_{Ξ} f (x | θ_{0}, ξ) π_{2} (ξ) d ξ$ $m_0(x)=\int_\Xi f(x|\theta_0,\xi)\pi_2(\xi)\text{d}\xi$ is available in closed form, one can derive the marginal density for the unconstrained model $m_{a} (x) = \int_{Θ \times Ξ} f (x | θ, ξ) π_{1} (θ) π_{2} (ξ) d θ d ξ$ $m_a(x)=\int_{\Theta\times\Xi} f(x|\theta,\xi)\pi_1(\theta)\pi_2(\xi)\text{d}\theta\text{d}\xi$ from the Bayes factor. (This Savage-Dickey representation relies on specific versions of three different densities and so is fraught with danger, not even mentioning the computational challenge of producing the marginal posterior.)

[Here is a set of slides I wrote about estimating normalising constants for a NIPS workshop last December.]

Xi'an
sumber

(+1) Incredibly rich answer, thank you. This will be useful to me and, I suppose, many other people. It will take me some time to have a look at the various approaches, and then I might come back with specific questions.

lacerbi

Starting from point (1)... I read the relevant articles. The "corrected" harmonic mean estimator seems exactly what I was looking for. It's neat and easy to compute given a MCMC output. So... what's the catch? It doesn't look like the method is being widely used, judging from a quick search on Google Scholar. What are its limitations? (besides the need to identify the HPD regions, which I imagine might become an issue for very complicated posteriors in high dimension). I am definitely going to give it a try -- but I wonder if there is something I need to be wary of.

lacerbi

Saya menambahkan beberapa rincian lebih lanjut: masalah dalam menerapkan seragam HPD adalah untuk mengetahui pendekatan kompak yang tepat untuk wilayah HPD. Cembung hull poin dengan nilai posterior tinggi (NP?) Sulit untuk menentukan sementara bola yang berpusat pada titik-titik tersebut dapat berpotongan, yang menciptakan masalah normalisasi konstan sekunder.

Xi'an

@Xi'an : very helpful, thanks! Can I ask: of all the mentioned approaches, what would currently be your recommendation if one looks for a general approach that tends to work out of the box (i.e. no tuning / checking required from the user)? I would be especially interested in the case of models with a low (< 50) number of parameters, non-normal posteriors, and strong correlations between parameters.

Florian Hartig

@FlorianHartig: the fact that a generic software like BUGS does not return a generic estimate of

Z

$\mathfrak{Z}$ adalah semacam mengungkapkan sejauh mana masalah. Banyak solusi yang dapat ditemukan dalam literatur khusus belum menghasilkan perkiraan konsensus. Oleh karena itu, rekomendasi saya adalah memilih solusi regresi logistik Geyer, yang agak tidak sensitif terhadap dimensi.

Xi'an

Perhitungan kemungkinan marginal dari sampel MCMC

Jawaban: