Saat melakukan statistik frequentist, ada daftar panjang no-no, seperti melihat hasil tes statistik sebelum memutuskan untuk mengumpulkan lebih banyak data. Secara umum saya bertanya-tanya apakah ada daftar no-no yang mirip untuk metodologi yang terlibat dalam statistik Bayesian, dan khususnya apakah yang berikut ini adalah salah satunya.
Baru-baru ini saya menyadari bahwa untuk beberapa model yang saya pas, proses saya adalah untuk pertama-tama mencocokkan model dengan priors informatif untuk melihat apakah itu berfungsi atau meledak, dan kemudian melemahkan prior baik menjadi tidak informatif atau kurang informatif dan perbaiki model.
Motivasi saya untuk ini benar-benar berkaitan dengan fakta bahwa saya menulis model ini di JAGS / Stan, dan dalam pikiran saya, saya telah memperlakukannya lebih seperti tugas pemrograman daripada tugas statistik. Jadi, saya melakukan percobaan pertama, semacam mencocokkannya dengan cepat dengan menggunakan prior informatif, sehingga lebih mudah untuk menangkap kesalahan dalam model yang saya tulis. Kemudian, setelah men-debug model, saya mereparasi dengan informasi yang kurang informatif atau kurang informatif.
Pertanyaan saya adalah apakah saya melanggar beberapa aturan serius dengan proses ini. Sebagai contoh, agar kesimpulan saya valid, dan untuk menghindari eksploitasi tingkat kebebasan peneliti, apakah saya harus berkomitmen pada prior prior sebelum mulai menyesuaikan model?
sumber
Jawaban:
Bayesians subjektif mungkin tidak setuju, tetapi dari sudut pandang saya, prioritas hanya bagian dari model, seperti kemungkinan. Mengubah sebelumnya sebagai respons terhadap perilaku model tidak lebih baik atau lebih buruk daripada mengubah fungsi kemungkinan Anda (misalnya mencoba distribusi kesalahan yang berbeda atau formulasi model yang berbeda).
Ini bisa berbahaya jika memungkinkan Anda melakukan ekspedisi memancing, tetapi alternatifnya bisa lebih buruk. Misalnya, dalam kasus yang Anda sebutkan, di mana model Anda meledak dan Anda mendapatkan koefisien yang tidak masuk akal, maka Anda tidak punya banyak pilihan selain mencoba lagi.
Juga, ada beberapa langkah yang dapat Anda ambil untuk meminimalkan bahaya ekspedisi memancing:
sumber
Jika Anda bereksperimen dengan prior dan memilih satu dalam hal kinerjanya pada data yang ada, itu bukan lagi "prior". Tidak hanya tergantung pada data (seperti dalam analisis Bayes empiris), tetapi juga tergantung pada apa yang ingin Anda lihat (yang lebih buruk). Pada akhirnya, Anda memang menggunakan alat Bayesian, tetapi ini tidak bisa disebut analisis Bayesian.
sumber
Saya pikir Anda baik-baik saja dalam hal ini karena tiga alasan:
Anda sebenarnya tidak menyesuaikan prior Anda dalam menanggapi hasil Anda. Jika Anda mengatakan sesuatu seperti, "Saya menggunakan prior XYZ dan tergantung pada tingkat konvergensi dan hasil DIC saya, saya kemudian memodifikasi prior saya dengan ABC," maka saya akan mengatakan Anda melakukan no-no, tetapi dalam hal ini Sepertinya Anda benar-benar tidak melakukan itu.
Dalam konteks Bayesian, prior adalah eksplisit. Jadi mungkin bagi Anda untuk mengubah prior Anda dengan tidak tepat, tetapi prior yang dihasilkan akan selalu terlihat untuk diperiksa oleh orang lain yang dapat mempertanyakan mengapa Anda memiliki prior tersebut. Mungkin saya naif di sini, karena mudah untuk melirik sesuatu seperti sebelumnya dan berkata, "Hmm, terlihat masuk akal" hanya karena seseorang menawarkannya, tapi ...
Saya pikir apa yang Anda lakukan terkait dengan saran Gelman (dan lainnya) untuk membangun model JAGS sepotong demi sepotong, pertama bekerja dengan data sintetis, kemudian data nyata, untuk memastikan Anda tidak memiliki kesalahan spesifikasi . Itu bukan faktor dalam metodologi sering, dan itu bukan metodologi eksperimental.
Kemudian lagi, saya masih belajar hal-hal ini sendiri.
PS Ketika Anda mengatakan bahwa Anda awalnya rig untuk menyatu dengan cepat dengan "prior prior", maksud Anda sebenarnya prior informatif yang termotivasi oleh masalah yang dihadapi, atau hanya prior yang dengan alasan sewenang-wenang sangat mendorong / membatasi posterior untuk mempercepat "konvergensi" "ke titik arbitrer? Jika ini kasus pertama, mengapa Anda kemudian beralih dari prior (termotivasi) ini?
sumber
Saya pikir ini mungkin tidak independen dari sekolah Bayesian. Jeffreys ingin menggunakan prior noninformative. Lindley mungkin ingin Anda menggunakan prior yang informatif. Bayesians empiris akan meminta Anda membiarkan data memengaruhi sebelumnya. Tapi saya pikir meskipun setiap sekolah membuat saran yang berbeda tentang pilihan sebelumnya, mereka semua memiliki pendekatan yang tidak berarti bahwa Anda dapat mengambil prioritas sebelumnya dan terus mengutak-atiknya sampai Anda mendapatkan hasil yang Anda inginkan. Itu pasti akan seperti melihat data dan mengumpulkan untuk mengumpulkan data dan menguji sampai Anda mencapai gagasan Anda sebelumnya tentang apa yang seharusnya jawabannya.
Sering atau Bayesian tidak masalah saya tidak berpikir ada orang yang ingin Anda bermain trik dengan (atau memijat) data. Mungkin ini adalah sesuatu yang kita semua dapat sepakati dan puisi lucu Peter benar-benar tepat.
sumber
Saya akan mengatakan tidak, Anda tidak harus berkomitmen untuk prioritas tertentu. Umumnya selama setiap analisis data Bayesian Anda harus melakukan analisis sensitivitas model terhadap yang sebelumnya. Itu akan termasuk mencoba berbagai prior lainnya untuk melihat apa yang terjadi pada hasilnya. Ini mungkin mengungkapkan yang lebih baik atau lebih kuat sebelum yang harus digunakan.
Dua yang jelas "tidak-tidak" adalah: bermain-main dengan yang sebelumnya terlalu banyak untuk mendapatkan kecocokan yang lebih baik, menghasilkan over fit dan mengubah parameter model lainnya untuk mendapatkan kecocokan yang lebih baik. Sebagai contoh yang pertama: mengubah inisial sebelum pada mean sehingga lebih dekat dengan mean sampel. Untuk yang kedua: mengubah variabel / fitur penjelas Anda dalam regresi untuk mendapatkan kecocokan yang lebih baik. Ini adalah masalah dalam versi regresi mana pun dan pada dasarnya membatalkan derajat kebebasan Anda.
sumber