Saya agak penginjilan sehubungan dengan penggunaan rasio kemungkinan untuk mewakili bukti objektif untuk / terhadap suatu fenomena tertentu. Namun, saya baru-baru ini belajar bahwa faktor Bayes melayani fungsi yang sama dalam konteks metode Bayesian (yaitu prior subyektif dikombinasikan dengan faktor Bayes objektif untuk menghasilkan keadaan kepercayaan subjektif yang diperbarui secara obyektif). Sekarang saya mencoba memahami perbedaan komputasi dan filosofis antara rasio kemungkinan dan faktor Bayes.
Pada tingkat komputasi, saya mengerti bahwa sementara rasio kemungkinan biasanya dihitung menggunakan kemungkinan yang mewakili kemungkinan maksimum untuk masing-masing parameterisasi masing-masing model (baik diperkirakan dengan validasi silang atau dihukum sesuai dengan kompleksitas model menggunakan AIC), tampaknya faktor Bayes entah bagaimana menggunakan kemungkinan yang mewakili kemungkinan masing-masing model terintegrasi di atas seluruh ruang parameternya (yaitu tidak hanya di MLE). Bagaimana sebenarnya integrasi ini dicapai secara khas? Apakah seseorang benar-benar hanya mencoba menghitung kemungkinan pada setiap ribuan (jutaan?) Sampel acak dari ruang parameter, atau adakah metode analitik untuk mengintegrasikan kemungkinan di seluruh ruang parameter? Selain itu, saat menghitung faktor Bayes,
Juga, apa perbedaan filosofis antara rasio kemungkinan dan faktor Bayes (nb saya tidak bertanya tentang perbedaan filosofis antara rasio kemungkinan dan metode Bayesian secara umum, tetapi faktor Bayes sebagai representasi dari bukti objektif khususnya). Bagaimana cara mengkarakterisasi makna faktor Bayes dibandingkan dengan rasio kemungkinan?
sumber
Jawaban:
Penting untuk menempatkan faktor Bayes dalam pengaturan yang tepat. Ketika Anda memiliki dua model, katakanlah, dan Anda mengonversi dari probabilitas ke peluang, maka faktor Bayes bertindak seperti operator berdasarkan keyakinan sebelumnya:
Perbedaan nyata adalah bahwa rasio kemungkinan lebih murah untuk dihitung dan secara umum lebih mudah untuk ditentukan secara konseptual. Kemungkinan pada MLE hanyalah perkiraan titik dari faktor pembilang dan penyebut faktor Bayes. Seperti konstruksi yang paling sering, itu dapat dilihat sebagai kasus khusus dari analisis Bayesian sebelum dibuat yang sulit untuk dicapai. Tetapi sebagian besar muncul karena secara analitik dapat ditelusuri dan lebih mudah untuk dihitung (di era sebelum perkiraan pendekatan komputasi Bayesian muncul).
Untuk titik pada perhitungan, ya: Anda akan mengevaluasi integral kemungkinan berbeda dalam pengaturan Bayesian dengan prosedur Monte Carlo skala besar di hampir semua kasus kepentingan praktis. Ada beberapa simulator khusus, seperti GHK, yang berfungsi jika Anda mengasumsikan distribusi tertentu, dan jika Anda membuat asumsi-asumsi ini, kadang-kadang Anda dapat menemukan masalah yang dapat ditelusuri secara analitik di mana terdapat faktor Bayes yang sepenuhnya analitik.
Tapi tidak ada yang menggunakan ini; tidak ada alasan untuk itu. Dengan sampler Metropolis / Gibbs yang dioptimalkan dan metode MCMC lainnya, sangat praktis untuk mendekati masalah ini dengan cara yang sepenuhnya didorong data dan menghitung integral Anda secara numerik. Bahkan, seseorang akan sering melakukan ini secara hierarkis dan lebih lanjut mengintegrasikan hasil lebih dari meta-prior yang berhubungan dengan mekanisme pengumpulan data, desain eksperimental yang tidak dapat diabaikan, dll.
Saya merekomendasikan buku Analisis Data Bayesian untuk informasi lebih lanjut tentang ini. Meskipun, penulis, Andrew Gelman, tampaknya tidak terlalu peduli dengan faktor Bayes . Selain itu, saya setuju dengan Gelman. Jika Anda akan pergi Bayesian, maka memanfaatkan posterior penuh. Melakukan pemilihan model dengan metode Bayesian seperti menghambat mereka, karena pemilihan model adalah bentuk inferensi yang lemah dan sebagian besar tidak berguna. Saya lebih suka mengetahui distribusi daripada pilihan model jika saya bisa ... siapa yang peduli tentang menghitungnya menjadi "model A lebih baik daripada model B" ketika Anda tidak perlu?
Saya akrab dengan derivasi ini dan diskusi dari buku Finite Mixture dan Markov Switching Models oleh Sylvia Frühwirth-Schnatter, tetapi ada kemungkinan lebih banyak akun statistik langsung yang masuk lebih dalam ke dalam epistemologi yang mendasarinya.
Saya tidak tahu detailnya cukup baik untuk diberikan di sini, tapi saya percaya ada beberapa hubungan teoritis yang cukup mendalam antara ini dan derivasi AIC. Buku Teori Informasi oleh Cover dan Thomas mengisyaratkan setidaknya ini.
Bagian artikel Wikipedia tentang "Interpretasi" melakukan pekerjaan yang baik untuk membahas hal ini (terutama bagan yang menunjukkan kekuatan skala bukti Jeffreys).
Seperti biasa, tidak ada banyak hal filosofis di luar perbedaan mendasar antara metode Bayesian dan metode sering (yang Anda sudah terbiasa dengan).
Hal utama adalah bahwa rasio kemungkinan tidak masuk akal dalam pengertian buku Belanda. Anda dapat membuat skenario di mana inferensi pemilihan model dari rasio kemungkinan akan menyebabkan orang menerima taruhan yang hilang. Metode Bayesian adalah koheren, tetapi beroperasi pada prior yang bisa sangat miskin dan harus dipilih secara subyektif. Pengorbanan .. pengorbanan ...
FWIW, saya pikir pemilihan model yang sangat parameterisasi ini tidak terlalu baik. Saya lebih suka metode Bayesian dan saya lebih suka mengaturnya secara lebih hierarkis, dan saya ingin kesimpulannya berpusat pada distribusi posterior penuh jika memungkinkan secara komputasi untuk melakukannya. Saya pikir faktor Bayes memiliki beberapa sifat matematika yang rapi, tetapi sebagai seorang Bayesian sendiri, saya tidak terkesan oleh mereka. Mereka menyembunyikan bagian yang sangat berguna dari analisis Bayesian, yaitu bahwa hal itu memaksa Anda untuk berurusan dengan para prior Anda di tempat terbuka alih-alih menyapu mereka di bawah permadani, dan memungkinkan Anda untuk melakukan inferensi pada tampilan penuh.
sumber
Dalam memahami perbedaan antara rasio kemungkinan dan faktor Bayes, penting untuk mempertimbangkan satu fitur utama dari faktor Bayes secara lebih rinci:
Bagaimana faktor Bayes mengelola untuk secara otomatis memperhitungkan kompleksitas model yang mendasarinya?
Satu perspektif pada pertanyaan ini adalah mempertimbangkan metode untuk kesimpulan inferensi deterministik. Variational Bayes adalah salah satu metode tersebut. Ini mungkin tidak hanya secara dramatis mengurangi kompleksitas komputasi dari perkiraan stokastik (misalnya, pengambilan sampel MCMC). Variational Bayes juga memberikan pemahaman intuitif tentang apa yang membentuk faktor Bayes.
Ingat dulu bahwa faktor Bayes didasarkan pada bukti model dari dua model yang bersaing,
di mana bukti masing-masing model harus dihitung oleh integral yang rumit:
Kita sekarang dapat kembali ke pertanyaan awal tentang bagaimana faktor Bayes secara otomatis menyeimbangkan kebaikan dan kompleksitas model yang terlibat. Ternyata energi-negatif dapat ditulis ulang sebagai berikut:
Istilah pertama adalah kemungkinan log dari data yang diharapkan di bawah perkiraan posterior; itu mewakili goodness of fit (atau akurasi ) dari model. Istilah kedua adalah divergensi KL antara perkiraan posterior dan sebelumnya; itu mewakili kompleksitas model, di bawah pandangan bahwa model yang lebih sederhana adalah salah satu yang lebih konsisten dengan keyakinan kami sebelumnya, atau di bawah pandangan bahwa model yang lebih sederhana tidak harus diperluas sebanyak untuk mengakomodasi data.
Perkiraan energi bebas untuk bukti model log menunjukkan bahwa bukti model menggabungkan trade-off antara pemodelan data (yaitu, goodness of fit) dan tetap konsisten dengan yang sebelumnya (yaitu, kesederhanaan atau kompleksitas negatif).
Faktor Bayes (berbeda dengan rasio kemungkinan) dengan demikian mengatakan mana dari dua model yang bersaing lebih baik dalam memberikan penjelasan data yang sederhana namun akurat .
sumber