Kapan MCMC berguna?

Saya mengalami kesulitan dalam memahami situasi di mana pendekatan MCMC sebenarnya berguna. Saya akan melalui contoh mainan dari buku Kruschke "Melakukan Analisis Data Bayesian: Tutorial dengan R dan BUGS".

Apa yang saya pahami sejauh ini adalah bahwa kita memerlukan target distribusi yang proporsional dengan untuk memiliki sampel . Namun, bagi saya, sekali kita memiliki kita hanya perlu menormalkan distribusi untuk mendapatkan posterior, dan faktor normalisasi dapat dengan mudah ditemukan secara numerik. Jadi apa kasusnya saat ini tidak memungkinkan? $p(D|\theta)p(\theta)$ $P(\theta|D)$ $p(D|\theta)p(\theta)$

mcmc Vaaal
sumber

Misalkan bukan skalar melainkan vektor

memiliki dimensi 10.000.

θ

$\theta$

θ

$\boldsymbol\theta$

Jan Galkowski

Jawaban saya agak singkat. Untuk mendapatkan konstanta, perlu menghitung

\int_{- \infty}^{\infty} p (D | θ) p (θ)

$\int_{-\infty}^{\infty} p(D|\theta)p(\theta)$ . Bahkan dalam kasus skalar, misalkan

p (D | θ)

$p(D|\theta)$ benar-benar miring sehingga integrasi sulit dilakukan, bahkan secara numerik. Maka Anda mungkin ingin menggunakan MCMC.

Jan Galkowski

Sebuah peringatan dari Alan Sokal: "Monte Carlo adalah metode yang sangat buruk; itu harus digunakan hanya ketika semua metode alternatif adalah yang terburuk". Kemudian dia memulai diskusi panjang tentang metode MC. stat.unc.edu/faculty/cji/Sokal.pdf

Yair Daon

@ Yair: Kedengarannya seperti Sokal menyalurkan Churchill.

kardinal

Ketika tidak ada lagi yang akan berhasil ...

kjetil b halvorsen

Jawaban:

Integrasi Monte Carlo adalah salah satu bentuk integrasi numerik yang dapat jauh lebih efisien daripada, misalnya, integrasi numerik dengan mendekati integrand dengan polinomial. Ini terutama benar dalam dimensi tinggi, di mana teknik integrasi numerik sederhana memerlukan evaluasi fungsi dalam jumlah besar. Untuk menghitung konstanta normalisasi , kita dapat menggunakan sampel penting , $p(D)$

p (D) = \int \frac{q (θ)}{q (θ)} p (θ) p (D ∣ θ) d θ \approx \frac{1}{N} \sum_{n} w_{n} p (θ_{n}) p (D ∣ θ_{n}),

$p(D) = \int \frac{q(\theta)}{q(\theta)} p(\theta)p(D \mid \theta) \, d\theta \approx \frac{1}{N} \sum_n w_n p(\theta_n)p(D \mid \theta_n),$

di mana dan disampel dari . Perhatikan bahwa kita hanya perlu mengevaluasi distribusi bersama pada titik sampel. Untuk tepat , penaksir ini bisa sangat efisien dalam arti membutuhkan sangat sedikit sampel. Dalam praktiknya, memilih tepat bisa sulit, tetapi di sinilah MCMC dapat membantu! Anil pentingnya sampel (Neal, 1998) menggabungkan MCMC dengan sampel penting $w_n = 1/q(\theta_n)$ $\theta_n$ $q$ $q$ $q$

Alasan lain mengapa MCMC berguna adalah ini: Kami biasanya bahkan tidak tertarik pada kepadatan posterior , tetapi lebih pada ringkasan statistik dan harapan , misalnya, $\theta$

\int p (θ ∣ D) f (θ) d θ .

$\int p(\theta \mid D) f(\theta) \, d\theta.$

Mengetahui secara umum tidak berarti kita dapat menyelesaikan integral ini, tetapi sampel adalah cara yang sangat mudah untuk memperkirakannya. $p(D)$

Akhirnya, mampu mengevaluasi adalah persyaratan untuk beberapa metode MCMC, tetapi tidak semuanya (misalnya, Murray et al., 2006 ). $p(D \mid \theta)p(\theta)$

Lucas
sumber

Maaf, tapi ini masih belum jelas bagi saya. Pertanyaan saya adalah: jika kita hanya mengalikan kita memperoleh pdf yang tidak normal. Dengan menjalankan MCMC kami mendapatkan sampel yang kami bisa perkirakan pdf yang tidak dinormalkan. Jika kita mau, kita bisa menormalkan keduanya. Jadi, MENANGGUNG Saya TIDAK tertarik pada statistik ringkasan apa pun, tetapi hanya di bagian luar, mengapa kami menggunakan MCMC sejak awal? Seperti yang Anda katakan, beberapa metode MCMC tidak memerlukan perhitungan , jadi saya tidak mengacu pada itu. Sejauh yang saya tahu, kebanyakan dari mereka memerlukan perhitungan itu. Apa kegunaan metode ini?

p (D | θ) p (θ)

$p(D|\theta)p(\theta)$

p (D | θ) p (θ)

$p(D|\theta)p(\theta)$

Vaaal

Saat menjalankan MCMC, Anda mendapatkan sampel dari pdf yang dinormalisasi, jadi hindari menghitung konstanta normalisasi. Dan ini gratis.

Xi'an

@Vaaal: Asumsi Anda bahwa "faktor normalisasi dapat dengan mudah ditemukan secara numerik" hanya berlaku untuk distribusi univariat sederhana. Untuk dimensi tinggi , normalisasi secara umum sangat sulit. Dalam hal ini, MCMC masih dapat digunakan untuk memperkirakan konstanta normalisasi (misalnya melalui annealed importance sampling).

θ

$\theta$

p (D ∣ θ) p (θ)

$p(D \mid \theta) p(\theta)$

Lucas

Ketika Anda diberi sebelumnya dan kemungkinan yang tidak dapat dihitung dalam bentuk tertutup atau sedemikian rupa sehingga distribusi posterior bukan tipe standar, mensimulasikan langsung dari target ini menuju perkiraan Monte Carlo dari distribusi posterior tidak layak. Contoh khas dibuat dari model hierarkis dengan prior non-konjugat, seperti yang ditemukan dalam buku BUGS . $p(\theta)$ $f(x|\theta)$

p (θ | x) \propto p (θ) f (x | θ)

$p(\theta|x)\propto p(\theta)f(x|\theta)$

Metode simulasi tidak langsung seperti teknik accept-reject, rasio-of-seragam, atau kepentingan-sampel biasanya mengalami kesulitan numerik dan presisi ketika dimensi parameter meningkat melampaui beberapa unit. $\theta$

Sebaliknya, metode rantai Markov, Monte Carlo, lebih dapat digunakan untuk dimensi besar karena mereka dapat menjelajahi distribusi posterior berbasis lokal, yaitu di lingkungan nilai saat ini, dan pada sejumlah kecil komponen, yaitu pada subruang. Sebagai contoh, sampler Gibbs memvalidasi gagasan yang mensimulasikan dari target satu dimensi pada suatu waktu, yaitu distribusi bersyarat penuh yang terkait dengan , cukup untuk mencapai simulasi dari posterior sebenarnya dalam jangka panjang. $p(\theta|x)$

Metode rantai Markov Monte Carlo juga beberapa tingkat universalitas dalam algoritma seperti algoritma Metropolis-Hastings secara resmi tersedia untuk setiap distribusi posterior yang dapat dihitung hingga konstanta. $p(\theta|x)$

Dalam kasus ketika tidak dapat dengan mudah dihitung, ada alternatif, baik dengan melengkapi distribusi ini menjadi distribusi yang dapat dikelola di ruang yang lebih besar, seperti dalam atau melalui metode non-Markovian seperti ABC . $p(\theta)f(x|\theta)$

p (θ) f (x | θ) \propto \int g (z | θ, x) p (θ) f (x | θ) d z

$p(\theta)f(x|\theta)\propto \int g(z|\theta,x) p(\theta)f(x|\theta)\text{d}z$

Metode MCMC telah memberikan jangkauan yang lebih luas untuk metode Bayesian, seperti yang diilustrasikan oleh kenaikan yang mengikuti popularisasi metode oleh Alan Gelfand dan Adrian Smith pada tahun 1990.

Xi'an
sumber

Tautan ke THE BUGS BOOK tidak berfungsi lagi.

HelloWorld