Saya membaca makalah penelitian menggunakan metode MCMC dan saya melihat sebagian besar dari mereka menyediakan plot jejak. Mengapa kita membutuhkan jejak jejak di Monte Carlo Markov Chain? Apa yang ditunjukkan oleh jejak jejak parameter?
sumber
Saya membaca makalah penelitian menggunakan metode MCMC dan saya melihat sebagian besar dari mereka menyediakan plot jejak. Mengapa kita membutuhkan jejak jejak di Monte Carlo Markov Chain? Apa yang ditunjukkan oleh jejak jejak parameter?
Anda membuat plot jejak parameter untuk memastikan bahwa distribusi apriori Anda dikalibrasi dengan baik yang ditunjukkan oleh parameter Anda memiliki perubahan status yang cukup saat algoritma MCMC berjalan.
Contoh ekstrem adalah bahwa Anda menetapkan varians distribusi apriori Anda pada 0. Kemudian estimasi parameter posterior tidak akan pernah berubah. Algoritme Anda akan mengatakan bahwa Anda memiliki perkiraan parameter terbaik, tetapi tidak memeriksa jumlah parameter yang cukup untuk menentukan apakah ini benar-benar paling cocok. Jika Anda menetapkan varians distribusi apriori terlalu tinggi, Anda mendapatkan masalah yang sama. Ini karena parameter baru cenderung tidak terkait dengan data Anda - sehingga kemungkinan log yang dihitung dengan parameter baru Anda tidak akan lebih baik daripada kemungkinan log menggunakan parameter lama. (Contohnya adalah jika parameter "true" Anda adalah 0,5 dan perkiraan awal Anda adalah 2, tetapi Anda memilih dari distribusi normal dengan rata-rata 2 dan varian 10.000 maka Anda tidak mungkin mendapatkan parameter yang lebih dekat ke 1 .
Anda perlu memilih varian apriori yang memungkinkan status parameter Anda untuk berubah cukup sehingga Anda tidak terjebak pada minimum dan maksimum lokal dalam distribusi kemungkinan log, tetapi cukup baik sehingga Anda mendapatkan estimasi parameter yang masuk akal. Sebagian besar literatur menyarankan Anda mendapatkan parameter untuk mengubah status 40-60% dari waktu.
Salah satu alasan lain untuk plot jejak adalah burn in. Biasanya periode burn dalam jelas dalam plot (misalnya, jika parameter sebenarnya adalah 1,5 dan estimasi awal Anda adalah 4 maka Anda akan melihat estimasi parameter bergerak cepat dari 4 ke 1,5 dan kemudian "memantul" sekitar 1,5). Biasanya, Anda hanya mengecualikan n iterasi pertama di mana n cukup besar sehingga Anda yakin telah menghapus burn (katakanlah 1000), tetapi jika perhitungannya memakan waktu atau jika estimasi parameter Anda membutuhkan waktu lebih lama untuk konvergen daripada n Anda memungkinkan maka Anda mungkin ingin menghilangkan lebih atau kurang pengamatan untuk memperhitungkan burn in. Anda dapat memeriksa plot Anda untuk melihat di mana burn in period berakhir untuk memastikan bahwa burn in tidak mempengaruhi hasil Anda.
Perhatikan bahwa saya telah berbicara dalam konteks estimasi titik parameter. Jika Anda memperkirakan varians parameter maka memastikan bahwa Anda memiliki perubahan status yang sesuai bahkan lebih penting.