Dalam algoritma Metropolis – Hastings untuk pengambilan sampel distribusi target, misalkan:
- menjadi kerapatan target di keadaan ,
- menjadi densitas target pada status yang diusulkan ,
- menjadi kepadatan proposal untuk transisi ke keadaan mengingat keadaan saat ini ,
- menjadi kemungkinan menerima keadaan yang diusulkan diberikan keadaan saat ini .
Kemudian dengan persamaan keseimbangan terperinci, setelah memilih kerapatan proposal , probabilitas terima dihitung sebagai:
Jika simetris, yaitu, , maka:
Ketika adalah distribusi Gaussian yang berpusat di state dan memiliki varians yang sama untuk semua , adalah simetris. Dari Wikipedia :
Jika terlalu besar, hampir semua langkah di bawah algoritma MH akan ditolak. Di sisi lain, jika terlalu kecil, hampir semua langkah akan diterima.
Saya bertanya-tanya mengapa kemungkinan menerima berubah ke arah sebaliknya dari perubahan varians kepadatan proposal, seperti yang disebutkan dalam kutipan di atas?
Jawaban:
Untuk mendapatkan ini, dan untuk menyederhanakan masalah, saya selalu berpikir dulu hanya dalam satu parameter dengan distribusi a-priori seragam (jarak jauh), sehingga dalam hal ini, estimasi MAP dari parameter sama dengan MLE . Namun, asumsikan bahwa fungsi kemungkinan Anda cukup rumit untuk memiliki beberapa maksimum lokal.
Apa yang dilakukan MCMC dalam contoh ini dalam 1-D adalah mengeksplorasi kurva posterior hingga menemukan nilai probabilitas maksimum. Jika variansnya terlalu pendek, Anda pasti akan terjebak pada maxima lokal, karena Anda akan selalu mengambil nilai sampel di dekat itu: algoritma MCMC akan "berpikir" itu terjebak pada distribusi target. Namun, jika variansnya terlalu besar, setelah Anda terjebak pada satu maksimum lokal, Anda akan lebih atau kurang menolak nilai sampai Anda menemukan daerah lain probabilitas maksimum. Jika Anda mengusulkan nilai pada MAP (atau wilayah yang sama dengan probabilitas maksimum lokal yang lebih besar dari yang lain), dengan varian besar Anda akhirnya akan menolak hampir setiap nilai lainnya: perbedaan antara wilayah ini dan yang lain akan terlalu besar.
Tentu saja, semua hal di atas akan memengaruhi laju konvergensi dan bukan konvergensi "per-se" rantai Anda. Ingat bahwa apa pun variansnya, selama probabilitas memilih nilai wilayah maksimum global ini adalah positif, rantai Anda akan bertemu.
Namun, untuk mem-by-pass masalah ini, seseorang dapat mengusulkan varians berbeda dalam periode burn-in untuk setiap parameter dan bertujuan pada tingkat penerimaan tertentu yang dapat memenuhi kebutuhan Anda (katakanlah , lihat Gelman, Roberts & Gilks, 1995 dan Gelman, Gilks & Roberts, 1997 untuk mempelajari lebih lanjut tentang masalah pemilihan tingkat penerimaan "baik" yang, tentu saja, akan tergantung pada bentuk distribusi posterior Anda). Tentu saja, dalam kasus ini rantai adalah non-markovian, jadi Anda TIDAK harus menggunakannya untuk inferensi: Anda hanya menggunakannya untuk menyesuaikan varians.0.44
sumber
Ada dua asumsi dasar yang mengarah pada hubungan ini:
Mari kita perhatikan kasus "small " terlebih dahulu. Biarkan menjadi keadaan saat ini dari rantai Markov dan menjadi kondisi yang diusulkan. Karena sangat kecil, kita dapat yakin bahwa . Menggabungkan ini dengan asumsi pertama kami, kita melihat bahwa dan dengan demikian .σ2 xi xj∼N(xi,σ2) σ2 xj≈xi π(xj)≈π(xi) π(xj)π(xi)≈1
Tingkat penerimaan yang rendah dengan mengikuti dari asumsi kedua. Ingatlah bahwa sekitar dari massa probabilitas dari distribusi normal terletak dalam dari rata-ratanya, jadi dalam kasus kami sebagian besar proposal akan dihasilkan dalam jendela . Ketika semakin besar, jendela ini meluas untuk mencakup semakin banyak domain variabel. Asumsi kedua menyiratkan bahwa fungsi kepadatan harus cukup kecil di atas sebagian besar domain, jadi ketika jendela sampel kami besar sering kali akan sangat kecil.σ2 95% 2σ [xi−2σ,xi+2σ] σ2 π(xj)
Sekarang untuk sedikit alasan melingkar: karena kita tahu MH sampler menghasilkan sampel yang didistribusikan menurut distribusi stasioner , itu harus menjadi kasus itu menghasilkan banyak sampel di daerah kepadatan tinggi dari domain dan beberapa sampel di daerah kepadatan rendah . Karena sebagian besar sampel dihasilkan di daerah kepadatan tinggi, biasanya besar. Dengan demikian, besar dan kecil, menghasilkan tingkat penerimaan .π π(xi) π(xi) π(xj) π(xj)π(xi)<<1
Kedua asumsi ini berlaku untuk sebagian besar distribusi yang mungkin menarik bagi kami, sehingga hubungan antara lebar proposal dan tingkat penerimaan ini adalah alat yang berguna untuk memahami perilaku MH MH.
sumber