Rasio penerimaan dalam algoritma Metropolis – Hastings

9

Dalam algoritma Metropolis – Hastings untuk pengambilan sampel distribusi target, misalkan:

  • πi menjadi kerapatan target di keadaan ,i
  • πj menjadi densitas target pada status yang diusulkan ,j
  • hij menjadi kepadatan proposal untuk transisi ke keadaan mengingat keadaan saat ini ,ji
  • aij menjadi kemungkinan menerima keadaan yang diusulkan diberikan keadaan saat ini .ji

Kemudian dengan persamaan keseimbangan terperinci, setelah memilih kerapatan proposal , probabilitas terima dihitung sebagai: ha

aij=min(1,πjhjiπihij).

Jika h simetris, yaitu, hij=hji , maka:

aij=min(1,πjπi).

Ketika hi adalah distribusi Gaussian yang berpusat di state i dan memiliki varians yang sama σ2 untuk semua i , h adalah simetris. Dari Wikipedia :

Jika σ2 terlalu besar, hampir semua langkah di bawah algoritma MH akan ditolak. Di sisi lain, jika σ2 terlalu kecil, hampir semua langkah akan diterima.

Saya bertanya-tanya mengapa kemungkinan menerima berubah ke arah sebaliknya dari perubahan varians kepadatan proposal, seperti yang disebutkan dalam kutipan di atas?

Tim
sumber
Ada masalah dengan formulasi Anda: Anda menggunakan ruang keadaan terbatas untuk menentukan target, proposal, dan probabilitas penerimaan, tetapi distribusi Gaussian yang beroperasi pada ruang kontinu sebagai contoh Anda.
Xi'an
@ Xi'an: Terima kasih! Saya menyadari perbedaan antara ruang sampel diskrit dan kontinu, ketika saya memposting pertanyaan. Jadi dalam formulasi saya, ada fungsi kepadatan untuk target dan distribusi proposal, sementara itu probabilitas untuk distribusi penerimaan. Saya gagal melihat apa yang tidak benar. Saya ingin tahu apakah Anda bisa menunjukkannya?
Tim
Dalam formulasi Anda, target dan proposal terdengar seperti fungsi massa probabilitas, bukan fungsi kepadatan. Atau kalau tidak, sangat membingungkan untuk menggunakan simbol yang biasanya disediakan untuk bilangan bulat ... Maksud saya, terlihat seperti elemen matriks. Inilah mengapa saya merasa proposal Gaussian tidak sesuai. hij
Xi'an

Jawaban:

11

Untuk mendapatkan ini, dan untuk menyederhanakan masalah, saya selalu berpikir dulu hanya dalam satu parameter dengan distribusi a-priori seragam (jarak jauh), sehingga dalam hal ini, estimasi MAP dari parameter sama dengan MLE . Namun, asumsikan bahwa fungsi kemungkinan Anda cukup rumit untuk memiliki beberapa maksimum lokal.

Apa yang dilakukan MCMC dalam contoh ini dalam 1-D adalah mengeksplorasi kurva posterior hingga menemukan nilai probabilitas maksimum. Jika variansnya terlalu pendek, Anda pasti akan terjebak pada maxima lokal, karena Anda akan selalu mengambil nilai sampel di dekat itu: algoritma MCMC akan "berpikir" itu terjebak pada distribusi target. Namun, jika variansnya terlalu besar, setelah Anda terjebak pada satu maksimum lokal, Anda akan lebih atau kurang menolak nilai sampai Anda menemukan daerah lain probabilitas maksimum. Jika Anda mengusulkan nilai pada MAP (atau wilayah yang sama dengan probabilitas maksimum lokal yang lebih besar dari yang lain), dengan varian besar Anda akhirnya akan menolak hampir setiap nilai lainnya: perbedaan antara wilayah ini dan yang lain akan terlalu besar.

Tentu saja, semua hal di atas akan memengaruhi laju konvergensi dan bukan konvergensi "per-se" rantai Anda. Ingat bahwa apa pun variansnya, selama probabilitas memilih nilai wilayah maksimum global ini adalah positif, rantai Anda akan bertemu.

Namun, untuk mem-by-pass masalah ini, seseorang dapat mengusulkan varians berbeda dalam periode burn-in untuk setiap parameter dan bertujuan pada tingkat penerimaan tertentu yang dapat memenuhi kebutuhan Anda (katakanlah , lihat Gelman, Roberts & Gilks, 1995 dan Gelman, Gilks ​​& Roberts, 1997 untuk mempelajari lebih lanjut tentang masalah pemilihan tingkat penerimaan "baik" yang, tentu saja, akan tergantung pada bentuk distribusi posterior Anda). Tentu saja, dalam kasus ini rantai adalah non-markovian, jadi Anda TIDAK harus menggunakannya untuk inferensi: Anda hanya menggunakannya untuk menyesuaikan varians.0.44

Néstor
sumber
+1 Terima kasih! (1) Mengapa "jika variansnya terlalu besar, setelah Anda terjebak pada satu maksimum lokal, Anda akan lebih atau kurang menolak nilai sampai Anda menemukan daerah lain probabilitas maksimum"? (2) "Jika Anda mengusulkan nilai pada MAP (atau wilayah probabilitas maksimum lokal yang serupa yang lebih besar dari yang lain), dengan varian besar Anda akhirnya akan menolak hampir setiap nilai lainnya", maksud Anda titik yang diusulkan berada di MAP sangat mungkin ditolak pada kasus varians yang besar? Karena ini adalah globalium, bukankah probabilitas penerimaannya selalu 1 terlepas dari keadaan saat ini?
Tim
@Tim: (1) Saya berpikir dalam kasus ketika keadaan awal acak. Jika ini masalahnya, maka Anda akan melompat dari maxima ke maxima, hingga Anda menemukan wilayah probabilitas maksimum lokal yang lebih besar dari rata-rata. (2) Jika Anda mengusulkan nilai yang mendekati MAP, kemungkinan besar Anda akan beralih ke kondisi itu. Begitu Anda berada di sana, dengan varian besar, Anda hampir pasti akan menolak setiap nilai lainnya, karena Anda akan mengusulkan nilai jauh di luar wilayah probabilitas maksimum ini.
Néstor
7

Ada dua asumsi dasar yang mengarah pada hubungan ini:

  1. Distribusi stasioner tidak berubah terlalu cepat (yaitu ia memiliki turunan pertama yang dibatasi).π()
  2. Sebagian besar massa probabilitas terkonsentrasi di subset domain yang relatif kecil (distribusinya "berpuncak").π()

Mari kita perhatikan kasus "small " terlebih dahulu. Biarkan menjadi keadaan saat ini dari rantai Markov dan menjadi kondisi yang diusulkan. Karena sangat kecil, kita dapat yakin bahwa . Menggabungkan ini dengan asumsi pertama kami, kita melihat bahwa dan dengan demikian .σ2xixjN(xi,σ2)σ2xjxiπ(xj)π(xi)π(xj)π(xi)1

Tingkat penerimaan yang rendah dengan mengikuti dari asumsi kedua. Ingatlah bahwa sekitar dari massa probabilitas dari distribusi normal terletak dalam dari rata-ratanya, jadi dalam kasus kami sebagian besar proposal akan dihasilkan dalam jendela . Ketika semakin besar, jendela ini meluas untuk mencakup semakin banyak domain variabel. Asumsi kedua menyiratkan bahwa fungsi kepadatan harus cukup kecil di atas sebagian besar domain, jadi ketika jendela sampel kami besar sering kali akan sangat kecil.σ295%2σ[xi2σ,xi+2σ]σ2π(xj)

Sekarang untuk sedikit alasan melingkar: karena kita tahu MH sampler menghasilkan sampel yang didistribusikan menurut distribusi stasioner , itu harus menjadi kasus itu menghasilkan banyak sampel di daerah kepadatan tinggi dari domain dan beberapa sampel di daerah kepadatan rendah . Karena sebagian besar sampel dihasilkan di daerah kepadatan tinggi, biasanya besar. Dengan demikian, besar dan kecil, menghasilkan tingkat penerimaan .ππ(xi)π(xi)π(xj)π(xj)π(xi)<<1

Kedua asumsi ini berlaku untuk sebagian besar distribusi yang mungkin menarik bagi kami, sehingga hubungan antara lebar proposal dan tingkat penerimaan ini adalah alat yang berguna untuk memahami perilaku MH MH.

Drew
sumber
+1. Terima kasih! Ketika besar, saya masih tidak yakin mengapa biasanya besar sedangkan biasanya kecil? Bisakah alasan Anda bahwa kecil berlaku untuk dan alasan Anda bahwa besar berlaku untuk ? σ2π(xi)π(xj)π(xj)π(xi)π(xi)π(xj)
Tim
1
Cara lain untuk memikirkannya adalah sebagai berikut: ketika besar, sebagian besar proposal Anda ( ) akan memiliki kepadatan rendah di bawah target distribusi (karena alasan yang dijelaskan di atas - apakah bagian itu oke?). Sangat jarang Anda akan mengusulkan nilai dengan kepadatan tinggi di bawah proposal, dan ketika ini terjadi, Anda hampir pasti akan menerimanya. Sesampai di sana, Anda terus mengusulkan nilai yang tidak mungkin; karena Anda jarang menerima salah satu dari mereka, Anda hanya "tetap" di sampel Anda saat ini, kepadatan tinggi untuk banyak iterasi. σ2xj
Drew