Terminologi 'matriks massa' Hamiltonian / Hibrid MCMC

8

Saya mencoba menerapkan HMC dengan matriks massa non-diagonal, tetapi saya tersandung oleh beberapa terminologi.

Menurut BDA3 dan ulasan Neal, istilah energi kinetik (yang saya kira selalu digunakan karena kenyamanan) adalah

K (p) = \frac{p^{T} M^{- 1} p}{2} .

$K(p) = \frac{p^T M^{-1} p}{2} \,.$

Ini juga dikenali disebut multivariat normal dengan mean nol dan kovarians matriks . BDA3 (hal 301) mengatakan $M$

Untuk membuatnya sederhana, kita biasanya menggunakan matriks massa diagonal, M. Jika demikian, komponen φ adalah independen, dengan φj ∼ N (0, Mjj) untuk setiap dimensi j = 1,. . . , d. Ini dapat berguna untuk M untuk skala sekitar dengan matriks kovarians terbalik dari distribusi posterior, (var (θ | y)) ^ - 1.

(Saya membaca N (0, M)) sebagai multivariat normal dengan rata-rata nol dan kovarians M.)

Bagian yang membuat saya tersandung adalah di mana dikatakan bahwa "dapat bermanfaat bagi untuk secara kasar mengukur dengan matriks kovarians terbalik dari distribusi posterior ...". $M$

Dan kemudian juga sebelum bahwa sampel momentum yang dimulai langkah-langkah lompatan ( ) diambil dari normal multivariat dengan kovarian matriks . $\phi$ $M$

Jadi yang mana? Untuk membangun M yang baik untuk HMC, apakah saya memperkirakan kovarians atau matriks presisi posterior? Meskipun adalah matriks kovarian dari energi kinetik, menggunakan yang merupakan estimasi dari matriks presisi posterior akan menghasilkan algoritma yang lebih efisien? $M$ $M$

Pertanyaan kedua: intuisi apa yang bisa membimbing saya di sini?

Apakah Anda ingin menggunakan matriks presisi sehingga momentum mendorong ortogonal ke potensial / posterior untuk meningkatkan pencampuran?
ATAU apakah Anda ingin momentum mendorong ke arah bagian massa probabilitas tinggi dari posterior (karena di situlah Anda ingin mengambil sebagian besar sampel).

ps Alasan saya tidak menggunakan matriks identitas untuk adalah karena untuk masalah saya, saya kebetulan bisa mendapatkan estimasi yang layak dari matriks kovarians posterior saya yang cukup tinggi (~ 1000) sebelumnya. $M$

bayesian mcmc monte-carlo bill_e
sumber

6

Transformasi linear dari variabel posisi setara dengan transformasi linear terbalik dari variabel momentum. Idealnya, Anda ingin mengambil sampel dari distribusi (yang ditransformasikan) yang matriks kovariansnya adalah matriks identitas, dan ini diperoleh dengan transformasi yang ditunjukkan di atas.

Untuk perinciannya, ada penjelasan yang bagus di Neal "MCMC using Hamiltonian dynamics", Bab 5 dari Handbook of Markov Chain Monte Carlo , Bagian 4.1 ("Pengaruh transformasi linear"). Bab ini tersedia di sini .

Neal menjelaskan:

Misalkan kita memiliki estimasi, , dari matriks kovarians untuk , dan anggap juga bahwa memiliki setidaknya distribusi Gaussian kasar. Bagaimana kita dapat menggunakan informasi ini untuk meningkatkan kinerja HMC? Salah satu caranya adalah mentransformasikan variabel sehingga matriks kovariansnya dekat dengan identitas, dengan menemukan dekomposisi Cholesky, , dengan yang lebih rendah segitiga, dan membiarkan . [ ] $\Sigma$ $q$ $q$ $\Sigma = LL^T$ $L$ $q^\prime = L^{−1}q$ $\ldots$

Cara yang setara untuk menggunakan estimasi kovarians adalah dengan menjaga variabel asli , tetapi gunakan fungsi energi kinetik - yaitu, kita membiarkan variabel momentum memiliki kovarian . Kesetaraan dapat dilihat dengan mentransformasikan energi kinetik ini sesuai dengan transformasi ke (lihat persamaan (4.1)), yang menghasilkan dengan . $\Sigma$ $q$ $K(p) = p^T \Sigma p/2$ $\Sigma^{−1}$ $q^\prime = L^{−1} q$ $K(p^\prime) = (p^\prime)^T{M^\prime}^{−1}p^\prime$ $M^\prime = (L^{−1}(LL^T)(L^{−1})^T)^{−1} = I$

Untuk memberikan intuisi, misalkan pdf target berbentuk cerutu yang menunjuk ke satu arah yang tidak sejajar sumbu. Anda dapat memutar dan mengubah skala ruang, sehingga cerutu menjadi bola, dan kemudian menarik momentum dari unit multivariat normal, atau setara Anda dapat menjaga ruang asli dan menggambar momentum Anda sehingga mereka sejajar dengan cerutu (misalnya, dengan sebagian besar kecepatan di sepanjang sumbu utama cerutu, sehingga Anda dapat menjelajahinya dengan cepat).

Lacerbi
sumber

Saya harus mengakui bahwa saya membaca itu (beberapa kali) dan kemudian memutuskan untuk mengajukan pertanyaan ini ... Jika Anda dapat menghubungkan penjelasan Neal di sana dengan pertanyaan saya, Anda akan mendapatkan semua poinnya

bill_e

@bill_e: Pertanyaan pertama Anda sepenuhnya dijawab di atas: "kami membiarkan variabel momentum memiliki kovarian ". Jadi, ya, . Jawaban untuk pertanyaan kedua adalah bahwa Anda ingin mengirim sehingga distribusi momenta selaras dengan sumbu matriks kovarians (yang setara dengan reparametrize ruang asli sehingga matriks kovarians adalah identitas).

Σ^{- 1}

$\Sigma^{-1}$

M = Σ^{- 1}

$M = \Sigma^{-1}$

p \to L^{T} p

$p \rightarrow L^T p$

lacerbi

Langkah-langkah yang diposting dari implementasi ini, hanya untuk menjadi sangat jelas. Apakah tepat? Secara khusus kebalikannya (atau ketiadaan) pada . Ya, cerutu itu masuk akal. Saya akan lebih memikirkannya.

\hat{Σ}

$\hat{\Sigma}$

bill_e

4

Cara sederhana untuk melihat mengapa harus menjadi kovarians terbalik dari distribusi yang ingin Anda sampel adalah dengan mempertimbangkan pengambilan sampel dari Normal multivarian dengan rata-rata dan kovarians . Dalam hal ini persamaan gerak Hamilton dapat diselesaikan dengan tepat (yaitu, tidak perlu untuk integrasi leapfrog). Sekarang, untuk dua hal ajaib terjadi: (i) persamaan gerak untuk setiap koordinat decouple dari yang lain, dan (ii) matriks dan saling membatalkan satu sama lain dan menghilang dari persamaan gerak. Solusinya adalah seperangkat osilator dengan frekuensi yang sama, yang dapat diperdebatkan untuk menghasilkan pencampuran secepat mungkin. Lihat beberapa detail dalam persamaan (2.31) - (2.35) $M$ $\mu$ $\Sigma$ $M=\Sigma^{-1}$ $\Sigma$ $M$ di sini .

Dalam distribusi generik pendekatan ini hanya merupakan perkiraan.

aripakman
sumber

0

Bagian penting dari momentum transformasi linear menggunakan estimasi kovarians.

Diberikan estimasi dari matriks kovarians HMC posterior adalah untuk sampel dari: $\hat{\Sigma}$

Gambar $\phi \sim N(0, \hat{\Sigma}^{-1})$
Simulasikan dinamika Hamilton. (Mengulangi kali L)

A. Setengah langkah: $\phi \leftarrow \phi + \frac{1}{2}\epsilon \frac{d}{d\theta}\mathrm{log}p(\theta \mid y)$ .

B. Langkah penuh: $\theta \leftarrow \theta + \epsilon \hat{\Sigma}\phi$ .

C. Setengah langkah: $\phi \leftarrow \phi + \frac{1}{2}\epsilon \frac{d}{d\theta}\mathrm{log} p(\theta \mid y)$ .
Terima tolak.

(Jika ini benar, jangan perbaiki ini, upvote @lacerbi)

bill_e
sumber

1

subbed

M^{- 1}

$M^{-1}$ untuk

\hat{Σ}

$\hat{\Sigma}$

bill_e

Ya, saya pikir ini benar. Lihat misalnya Persamaan. (4) dari makalah ini .

lacerbi

Terminologi 'matriks massa' Hamiltonian / Hibrid MCMC

Jawaban: