Pernahkah ada studi skala besar metode MCMC yang membandingkan kinerja beberapa algoritma yang berbeda pada serangkaian kepadatan uji? Saya sedang memikirkan sesuatu yang setara dengan makalah Rios dan Sahinidis (2013), yang merupakan perbandingan menyeluruh dari sejumlah besar pengoptimalisasi kotak hitam bebas derivatif pada beberapa kelas fungsi pengujian.
Untuk MCMC, kinerja dapat diperkirakan dalam, misalnya, jumlah sampel efektif (ESS) per evaluasi kepadatan, atau beberapa metrik lain yang sesuai.
Beberapa komentar:
Saya menghargai bahwa kinerja akan sangat tergantung pada detail pdf target, tetapi argumen yang serupa (mungkin tidak identik) berlaku untuk optimasi, dan meskipun demikian ada sejumlah fungsi benchmark, suite, kompetisi, makalah, dll. Yang berhubungan dengan optimasi benchmarking algoritma.
Juga, memang benar bahwa MCMC berbeda dari optimasi dalam hal perawatan dan penyetelan yang jauh lebih dibutuhkan dari pengguna. Meskipun demikian, sekarang ada beberapa metode MCMC yang memerlukan sedikit atau tidak sama sekali tuning: metode yang beradaptasi dalam fase burn-in, selama pengambilan sampel, atau metode multi-state (juga disebut ensemble ) (seperti pembawa acara ) yang mengembangkan beberapa rantai yang saling berinteraksi dan menggunakan informasi dari rantai lain untuk memandu pengambilan sampel.
Saya terutama tertarik pada perbandingan antara metode standar dan multi-state (alias ansambel). Untuk definisi multi-negara, lihat Bagian 30.6 dari buku MacKay :
- Pertanyaan ini berasal dari sini .
Memperbarui
- Untuk mendapatkan metode multi-negara alias ensemble yang menarik, lihat posting blog ini oleh Bob Carpenter di blog Gelman, dan komentar saya merujuk pada posting CV ini.
sumber
Saya setuju dengan penilaian Anda bahwa tidak ada tolok ukur komprehensif yang ditetapkan untuk metode MCMC. Ini karena setiap sampler MCMC memiliki pro dan kontra, dan sangat spesifik masalah.
Dalam pengaturan pemodelan Bayesian yang khas, Anda dapat menjalankan sampler yang sama dengan laju pencampuran yang beragam saat data berbeda. Saya akan pergi sejauh mengatakan bahwa jika di masa depan ada keluar studi patokan yang komprehensif dari berbagai sampler MCMC, saya tidak akan percaya hasil akan berlaku di luar contoh yang ditunjukkan.
Mengenai penggunaan ESS untuk menilai kualitas pengambilan sampel, perlu disebutkan bahwa ESS tergantung pada jumlah yang diperkirakan dari sampel. Jika Anda ingin menemukan rata-rata sampel, ESS yang diperoleh akan berbeda dari jika Anda ingin memperkirakan kuantil ke-25. Karena itu, jika jumlah bunga tetap, ESS adalah cara yang masuk akal untuk membandingkan sampler. Mungkin ide yang lebih baik adalah ESS per unit waktu.
Satu kekurangan dengan ESS adalah bahwa untuk masalah estimasi multivariat, ESS mengembalikan ukuran sampel yang efektif untuk setiap komponen secara terpisah, mengabaikan semua korelasi silang dalam proses estimasi. Dalam makalah ini baru-baru ini, ESS multivariat telah diusulkan, dan diimplementasikan dalam
R
paketmcmcse
melalui fungsimultiESS
. Tidak jelas bagaimana metode ini dibandingkan dengan ESScoda
paket, tetapi pada awalnya tampaknya lebih masuk akal daripada metode ESS univariat.sumber