Apakah metode berbasis MCMC tepat ketika estimasi a-posteriori maksimum tersedia?

13

Saya telah memperhatikan bahwa dalam banyak aplikasi praktis, metode berbasis MCMC digunakan untuk memperkirakan suatu parameter meskipun posterior bersifat analitis (misalnya karena prior adalah konjugat). Bagi saya, lebih masuk akal untuk menggunakan penaksir MAP daripada penaksir berbasis MCMC. Adakah yang bisa menunjukkan mengapa MCMC masih merupakan metode yang tepat di hadapan posterior analitik?

bayesian mcmc posterior Holograph
sumber

2

Bisakah Anda memberi contoh dalam praktik ini? Perhatikan bahwa ada perbedaan dari konjugat sebelumnya dan konjugat kondisional . Dalam banyak aplikasi pengambilan sampel Gibbs, prior yang dipilih adalah konjugat bersyarat, tetapi yang sebelumnya tidak konjugat; misalnya, pertimbangkan Alokasi Dirichlet Laten.

pria

4

Tidak jelas apa yang harus dilakukan MAP dengan ini. Estimator Bayes adalah mean posterior, bukan mode posterior. Bahkan ketika prior tidak konjugat, Anda dapat sering melakukan optimasi untuk mendapatkan estimator MAP - STAN melakukan ini untuk lebih atau kurang dari sebelumnya. Inti dari melakukan MCMC adalah memperkirakan distribusi posterior, yang memiliki lebih banyak informasi daripada hanya estimator MAP.

pria

12

Tidak perlu menggunakan MCMC dalam hal ini: Markov Chain Monte-Carlo (MCMC) adalah metode yang digunakan untuk menghasilkan nilai dari distribusi. Ini menghasilkan rantai Markov nilai auto-berkorelasi dengan distribusi stasioner yang sama dengan target distribusi. Metode ini akan tetap bekerja untuk mendapatkan apa yang Anda inginkan, bahkan dalam kasus di mana target distribusi memiliki bentuk analitik. Namun, ada metode komputasi yang lebih sederhana dan kurang intensif yang bekerja dalam kasus-kasus seperti ini, di mana Anda berurusan dengan posterior yang memiliki bentuk analitik yang bagus.

Dalam kasus di mana distribusi posterior memiliki bentuk analitik yang tersedia, dimungkinkan untuk memperoleh estimasi parameter (misalnya, MAP) dengan optimisasi dari distribusi tersebut menggunakan teknik kalkulus standar. Jika distribusi target cukup sederhana, Anda mungkin mendapatkan solusi formulir tertutup untuk penaksir parameter, tetapi bahkan jika tidak, Anda biasanya dapat menggunakan teknik iteratif sederhana (misalnya, Newton-Raphson, gradient-descent, dll.) Untuk menemukan mengoptimalkan estimasi parameter untuk setiap input data yang diberikan. Jika Anda memiliki bentuk analitik untuk fungsi kuantil dari target distribusi, dan Anda perlu menghasilkan nilai dari distribusi, Anda dapat melakukan ini melalui sampling transformasi terbalik, yang kurang intensif secara komputasi daripada MCMC, dan memungkinkan Anda untuk menghasilkan nilai IID daripada nilai dengan pola korelasi otomatis yang kompleks.

Mengingat hal ini, jika Anda memprogram dari awal, maka sepertinya tidak ada alasan Anda akan menggunakan MCMC dalam kasus di mana target distribusi memiliki bentuk analitik yang tersedia. Satu-satunya alasan Anda mungkin melakukannya adalah jika Anda memiliki algoritma generik untuk MCMC yang sudah ditulis, yang dapat diimplementasikan dengan upaya minimal, dan Anda memutuskan bahwa efisiensi menggunakan bentuk analitik kalah dengan upaya untuk melakukan matematika yang diperlukan. Dalam konteks praktis tertentu Anda akan berhadapan dengan masalah yang umumnya tidak dapat diselesaikan, di mana algoritma MCMC sudah diatur dan dapat diimplementasikan dengan upaya minimal (misalnya, jika Anda melakukan analisis data dalamRStan). Dalam kasus ini mungkin lebih mudah untuk menjalankan metode MCMC Anda yang ada daripada mendapatkan solusi analitik untuk masalah, meskipun yang terakhir tentu saja dapat digunakan sebagai pemeriksaan pada pekerjaan Anda.

Pasang kembali Monica
sumber

10

$\pi(\theta)$

min_{δ} \int_{Θ} L (θ, δ) \tilde{π} (θ) f (x | θ) d θ

$\min_\delta\int_\Theta \text{L}(\theta,\delta)\,\tilde\pi(\theta)\,f(x|\theta)\,\text{d}\theta$

\tilde{π} (\cdot) \propto π (\cdot)

$\tilde\pi(\cdot)\propto\pi(\cdot)$

\int \tilde{π} (θ) d θ

$\int \tilde\pi(\theta)\,\text{d}\theta$

x, y \in (0, 1)

$x,y\in(0,1)$

f_{θ} (x, y) = \frac{1 + θ [(1 + x) (1 + y) - 3] + θ^{2} (1 - x) (1 - y))}{[1 - θ (1 - x) (1 - y)]^{3}} θ \in (- 1, 1)

$f_\theta(x,y)=\dfrac{1+\theta[(1+x)(1+y)-3]+\theta^2(1-x)(1-y)) }{[1-\theta(1-x)(1-y)]^3}\qquad\theta\in(-1,1)$

Φ^{- 1} (X)

$\Phi^{-1}(X)$

Y = y

$Y=y$

Φ (.)

$\Phi(.)$

Perhatikan juga bahwa penaksir maksimum a posteriori bukan penaksir paling alami dalam pengaturan Bayesian, karena tidak sesuai dengan fungsi kehilangan dan representasi bentuk-rapat dari kepadatan, bahkan hingga konstanta, tidak membuat penemuan MAP tentu mudah. Atau menggunakan MAP yang relevan.

Xi'an
sumber

2

Ketika saya membacanya, pertanyaan ini menanyakan dua pertanyaan yang agak ortogonal. Salah satunya adalah harus menggunakan penaksir MAP atas sarana posterior, dan yang lainnya adalah apakah seseorang harus MCMC jika posterior memiliki bentuk analitis.

Berkenaan dengan penduga MAP atas sarana posterior, dari perspektif teoritis, rata-rata posterior lebih disukai, seperti yang dicatat oleh @Xian dalam jawabannya. Keuntungan nyata bagi penaksir MAP adalah bahwa, terutama dalam kasus yang lebih tipikal di mana posterior tidak dalam bentuk tertutup, mereka dapat dihitung jauh lebih cepat (yaitu beberapa urutan besarnya) daripada perkiraan rata-rata posterior. Jika posterior kira-kira simetris (yang sering terjadi pada banyak masalah dengan ukuran sampel besar), maka estimasi MAP harus sangat dekat dengan rata-rata posterior. Jadi, daya tarik MAP sebenarnya adalah pendekatan yang sangat murah dari rata-rata posterior.

Perhatikan bahwa mengetahui konstanta normalisasi tidak membantu kami menemukan mode posterior, jadi memiliki solusi bentuk tertutup untuk posterior secara teknis tidak membantu kami menemukan perkiraan MAP, di luar kasus di mana kami mengenali posterior sebagai distribusi khusus yang kami tahu itu mode.

Sehubungan dengan pertanyaan kedua, jika seseorang memiliki bentuk tertutup dari distribusi posterior, secara umum tidak ada alasan untuk menggunakan algoritma MCMC. Secara teoritis, jika Anda memiliki solusi bentuk tertutup untuk distribusi posterior, tetapi tidak memiliki formulir tertutup untuk rata-rata beberapa fungsi dan tidak dapat mengambil gambar langsung dari distribusi formulir tertutup ini, maka orang mungkin beralih ke algoritma MCMC. Tetapi saya tidak mengetahui adanya kasus situasi ini.

Cliff AB
sumber

1

Saya berpendapat bahwa metode MCMC belum tentu tidak tepat , bahkan ketika solusi bentuk tertutup ada. Jelas, itu bagus ketika solusi analitis ada: mereka biasanya cepat, Anda menghindari kekhawatiran tentang konvergensi (dll).

Di sisi lain, konsistensi juga penting. Beralih dari teknik ke teknik mempersulit presentasi Anda: paling banter, detail yang tidak penting yang dapat membingungkan atau mengalihkan perhatian audiens dari hasil substantif Anda, dan paling buruk itu bisa terlihat seperti upaya untuk membiaskan hasil. Jika saya memiliki beberapa model, hanya beberapa yang mengakui solusi bentuk tertutup, saya akan sangat mempertimbangkan menjalankan semuanya melalui pipa MCMC yang sama bahkan jika itu tidak sepenuhnya diperlukan.

Saya menduga ini, ditambah inersia ("kami memiliki skrip ini yang berfungsi") menyumbang sebagian besar dari apa yang Anda lihat.

Matt Krause
sumber

Apakah metode berbasis MCMC tepat ketika estimasi a-posteriori maksimum tersedia?

Jawaban: