Hamiltonian Monte Carlo (HMC): apa intuisi dan justifikasi di balik variabel momentum yang didistribusikan Gaussian?

8

Saya membaca makalah HMC pengantar yang luar biasa dari Prof. Michael Betancourt, tetapi saya terjebak dalam pemahaman bagaimana kita memilih pilihan distribusi momentum.

Ringkasan

Ide dasar dari HMC adalah untuk memperkenalkan variabel momentum dalam hubungannya dengan variabel target . Mereka bersama-sama membentuk ruang fase .pq

Energi total dari sistem konservatif adalah konstan dan sistem harus mengikuti persamaan Hamilton. Oleh karena itu, lintasan dalam ruang fase dapat diuraikan menjadi tingkat energi , setiap tingkat sesuai dengan nilai energi dan dapat digambarkan sebagai satu set titik yang memenuhi:E

H1(E)={(q,p)|H(q,p)=E} .

Kami ingin memperkirakan distribusi gabungan , sehingga dengan mengintegrasikan kami mendapatkan distribusi target yang diinginkan . Lebih lanjut, dapat secara ekivalen ditulis sebagai , di mana berkorespondensi dengan nilai energi tertentu dan adalah posisi pada tingkat energi itu.π(q,p)pπ(q)π(q,p)π(θE|E)π(E)EθE

π(q,p)={π(p|q)π(q)π(θE|E)π(E),microcanonical decomposition

Untuk nilai diberikan , relatif lebih mudah diketahui, karena kita dapat melakukan integrasi persamaan Hamilton untuk mendapatkan titik data pada lintasan. . Namun, adalah bagian yang rumit yang tergantung pada bagaimana kita menentukan momentum, yang akibatnya menentukan jumlah energi .Eπ(θE|E)π(E)E

masukkan deskripsi gambar di sini

Pertanyaan

Tampak bagi saya bahwa apa yang kita kejar adalah , tetapi yang bisa kita perkirakan adalah , berdasarkan asumsi bahwa dapat kira-kira mirip dengan , seperti yang diilustrasikan dalam Gambar 23 dari makalah ini. Namun, apa yang sebenarnya kita sampel tampaknya adalah .π(E)π(E|q)π(E|q)π(E)π(p|q)

T1 : Apakah itu karena setelah kita tahu , kita dapat dengan mudah menghitung dan karenanya memperkirakan ?π(p|q)Eπ(E|q)

Untuk membuat asumsi bahwa berlaku, kita menggunakan momentum terdistribusi Gaussian. Dua pilihan disebutkan di koran:π(E)π(E|q)

π(p|q)={N(p|0,M)Euclidean-Gaussian kinetic energyN(p|0,Σ(q))Reimannian-Gaussian kinetic energy,

di mana adalah konstanta disebut metrik Euclidean, alias matriks massa .MD×D

Dalam kasus pilihan pertama (Euclidean-Gaussian), matriks massa sebenarnya tidak bergantung pada , jadi kemungkinan kita mengambil sampel sebenarnya adalah . Pilihan momentum terdistribusi Gaussian dengan kovarians menyiratkan bahwa variabel target terdistribusi Gaussian dengan matriks kovarians , karena dan perlu diubah secara terbalik untuk menjaga volume dalam ruang konstan fase .Mqπ(p)pMqM1pq

T2 : Pertanyaan saya adalah bagaimana kita bisa mengharapkan untuk mengikuti distribusi Gaussian? Dalam praktiknya dapat berupa distribusi yang rumit.qπ(q)

cwl
sumber

Jawaban:

8

Bukan hanya karena kita mengejar , hanya saja jika dan berbeda maka eksplorasi kita akan dibatasi oleh ketidakmampuan kita untuk mengeksplorasi semua energi yang relevan. Karenanya, dalam praktiknya, estimasi empiris dari dan berguna untuk mengidentifikasi segala kemungkinan keterbatasan eksplorasi kami yang merupakan motivasi untuk histogram komparatif dan diagnostik E-BFMI.π(E)π(E)π(E|q)π(E)π(E|q)

Jadi, apa yang kita ketahui tentang dua distribusi? Ketika kami meningkatkan dimensi distribusi target kami maka semacam cenderung cenderung semakin Gaussian. Jika waktu integrasi kami cukup lama maka eksplorasi set level kami akan menyeimbangkan dan jika adalah Gaussian maka juga akan cenderung semakin banyak Gaussian. π(E)π(p|q)π(E|q)

Karenanya energi kinetik Gaussian-Euclidean adalah titik awal yang baik tetapi tidak berarti selalu optimal ! Saya menghabiskan banyak waktu mencoba menyesuaikan model di mana Stan berteriak kepada saya tentang diagnostik E-BFMI yang buruk. Energi kinetik Gaussian-Riemannian dapat menjadi peningkatan yang signifikan dalam banyak kasus karena penentu log ketergantungan-posisi pada dapat membuat secara signifikan lebih Gaussian, tetapi ini masih banyak penelitian yang harus dilakukan untuk sepenuhnya memahami masalahnya.π(p|q)π(E)

Michael Betancourt
sumber
1
Saya mencoba untuk menulis jawaban, tetapi jika THE Michael Betancourt ada di Cross Validated, maka saya akan dengan senang hati mundur :-) hanya sebuah catatan, "log determent" kemungkinan besar salah ketik: saya yakin Anda maksudkan "log determinan" .
DeltaIV
Tersanjung memiliki jawaban @Michael Betancourt :-) Hanya ingin tahu, ketika Anda mengatakan "Ketika kami meningkatkan dimensi distribusi target kami maka semacam cenderung cenderung terlihat lebih dan lebih Gaussian", apakah ada bukti teoritis atau apakah ini merupakan pengamatan empiris? π(E)
cwl
3
@ cwl - ini adalah argumen asimptotik standar. Jika distribusi target konvergen ke distribusi terdistribusi secara independen dengan peningkatan data atau parameter maka akan konvergen ke yang akan didekati dengan baik oleh seorang Gaussian di atas beberapa dimensi. Di sisi lain kita cenderung meraih Hamiltonian Monte Carlo dalam praktik ketika targetnya kompleks sehingga asimptotik mungkin tidak terlalu relevan. Karena itu lindung nilai. pi(E)chi2
Michael Betancourt
@Michael Betancourt mengerti, terima kasih banyak atas penjelasannya!
cwl