Dalam metode MCMC , saya terus membaca tentang burn-in
waktu atau jumlah sampel "burn"
. Apa ini sebenarnya, dan mengapa itu dibutuhkan?
Memperbarui:
Setelah MCMC stabil, apakah tetap stabil? Bagaimana pengertian burn-in
waktu terkait dengan waktu pencampuran?
Jawaban:
Idenya adalah bahwa titik awal "buruk" dapat mengambil sampel terlalu banyak di daerah yang sebenarnya sangat rendah kemungkinannya di bawah distribusi kesetimbangan sebelum ia menetap dalam distribusi kesetimbangan. Jika Anda membuang poin-poin itu, maka poin yang seharusnya tidak mungkin akan jarang terjadi.
Halaman ini memberikan contoh yang bagus, tetapi juga menunjukkan bahwa burn-in lebih merupakan hack / artform daripada teknik berprinsip. Secara teori, Anda bisa mengambil sampel untuk waktu yang sangat lama atau mencari cara untuk memilih titik awal yang layak.
Sunting: Mencampur waktu mengacu pada berapa lama waktu yang dibutuhkan rantai untuk mendekati kondisi mapan, tetapi seringkali sulit untuk menghitung secara langsung. Jika Anda tahu waktu pencampuran, Anda hanya akan membuang banyak sampel, tetapi dalam banyak kasus, Anda tidak. Jadi, Anda memilih waktu burn-in yang diharapkan cukup besar sebagai gantinya.
Sejauh stabilitas - itu tergantung. Jika rantai Anda telah konvergen, maka ... itu konvergen. Namun, ada juga situasi di mana rantai tampaknya telah bertemu tetapi sebenarnya hanya "nongkrong" di satu bagian ruang negara. Misalnya, bayangkan ada beberapa mode, tetapi masing-masing mode tidak terhubung dengan yang lain. Mungkin diperlukan waktu yang sangat lama bagi sampler untuk berhasil melewati celah itu dan itu akan terlihat seperti rantai yang terkonvergensi dengan benar sampai membuat lompatan itu.
Ada diagnosa untuk konvergensi, tetapi banyak dari mereka yang kesulitan membedakan konvergensi yang sebenarnya dan pseudo-konvergensi yang terpisah. Bab Charles Geyer (# 1) dalam Handbook of Markov Chain Monte Carlo cukup pesimis tentang segalanya kecuali menjalankan rantai selama yang Anda bisa.
sumber
Algoritma Metropolis-Hastings secara acak sampel dari distribusi posterior. Biasanya, sampel awal tidak sepenuhnya valid karena Rantai Markov belum stabil ke distribusi stasioner. Membakar dalam sampel memungkinkan Anda untuk membuang sampel awal yang belum di stasioner.
sumber