Ketika menjalankan algoritma Metropolis-Hastings dengan distribusi kandidat yang seragam, apa alasan memiliki tingkat penerimaan sekitar 20%?
Pemikiran saya adalah: setelah nilai parameter true (atau close to true) ditemukan, maka tidak ada set nilai parameter kandidat baru dari interval seragam yang sama yang akan meningkatkan nilai fungsi kemungkinan. Oleh karena itu, semakin banyak iterasi yang saya jalankan, semakin rendah tingkat penerimaan yang harus saya dapatkan.
Di mana saya salah dalam pemikiran ini? Terimakasih banyak!
Ini ilustrasi perhitungan saya:
di mana adalah log-likelihood.
Sebagai kandidat selalu diambil dari interval yang seragam yang sama,
Oleh karena itu perhitungan tingkat penerimaan menyusut menjadi:
Aturan penerimaan adalah sebagai berikut:
Jika , di mana menarik dari distribusi seragam dalam interval , maka
lain menarik dari distribusi seragam dalam interval [ θ m i n , θ m a x ]
sumber
Jawaban:
Saya percaya bahwa Konvergensi yang lemah dan penskalaan optimal dari algoritma Metropolis walk acak oleh Roberts, Gelman dan Gilks adalah sumber untuk tingkat penerimaan optimal 0,234.
Apa yang ditunjukkan oleh makalah ini adalah bahwa, di bawah asumsi tertentu, Anda dapat menskalakan algoritma random walk Metropolis-Hastings saat dimensi ruang menuju infinity untuk mendapatkan difusi pembatas untuk setiap koordinat. Dalam batas tersebut, difusi dapat dilihat sebagai "paling efisien" jika tingkat penerimaan mengambil nilai 0,234. Secara intuitif, ini merupakan pertukaran antara membuat untuk banyak langkah kecil yang diterima dan membuat banyak proposal besar yang ditolak.
Algoritma Metropolis-Hastings sebenarnya bukan algoritma optimasi, berbeda dengan anil simulasi. Ini adalah algoritma yang seharusnya disimulasikan dari distribusi target, maka probabilitas penerimaan tidak boleh didorong ke arah 0.
sumber
Hanya untuk menambah jawab dengan @NRH. Ide umum mengikuti prinsip Goldilocks :
Tentu saja pertanyaannya adalah, apa yang kita maksud dengan "tepat". Pada dasarnya, untuk kasus tertentu mereka meminimalkan jarak lompatan persegi yang diharapkan. Ini sama dengan meminimalkan autokorelasi lag-1. Baru-baru ini, Sherlock dan Roberts menunjukkan bahwa sihir 0,234 berlaku untuk distribusi target lainnya:
sumber
Saya menambahkan ini sebagai jawaban karena saya tidak memiliki reputasi yang cukup untuk berkomentar di bawah pertanyaan. Saya pikir Anda bingung antara tingkat penerimaan dan rasio penerimaan .
Sekarang keraguan Anda tentang tingkat penerimaan optimal menjadi 20% sebenarnya tentang tingkat penerimaan nyata, bukan rasio penerimaan. Jawabannya diberikan dalam jawaban lain. Saya hanya ingin menunjukkan kebingungan yang Anda alami.
sumber