Ini adalah pemahaman saya bahwa kita tidak boleh membiarkan kumpulan data yang sama yang kita analisis untuk mendorong / menentukan seperti apa distribusi sebelumnya dalam analisis Bayesian. Secara khusus, tidak tepat untuk mendefinisikan distribusi sebelumnya untuk analisis Bayesian berdasarkan statistik ringkasan dari set data yang sama yang Anda akan gunakan prior untuk membantu menyesuaikan model.
Adakah yang mengetahui sumber daya yang secara khusus mendiskusikan hal ini sebagai tidak pantas? Saya perlu beberapa kutipan untuk masalah ini.
Jawaban:
Ya ini tidak pantas karena menggunakan data yang sama dua kali, yang mengarah pada hasil yang terlalu rahasia. Ini dikenal sebagai 'pencelupan ganda'.
Untuk referensi, saya akan mulai dengan Carlin dan Louis (2000). Meskipun 'pencelupan ganda' telah menjadi salah satu kritik utama Empiris Bayes, Ch. 3, khususnya bagian 3.5, buku ini menjelaskan cara untuk memperkirakan interval kepercayaan yang sesuai menggunakan pendekatan EB.
Berger J (2006). \ Kasus untuk Analisis Bayesian Tujuan. "Analisis Bayesian, 1 (3), 385 {402
Bradley P. Carlin, Thomas A. Louis 2000. Metode Bayes dan Empirical Bayes untuk analisis data.
Darniede, WF 2011. Metode Bayesian untuk Data-Dependent Priors. MS Tesis, Ohio State Univ.
Gelman, A., Carlin, JB, Stern, HS, dan Rubin, DB (2003), Analisis Data Bayesian, Edisi Kedua (Chapman & Hall / CRC Teks dalam Ilmu Statistik), Chapman dan Hall / CRC, 2 ed.
sumber
Masuk akal untuk menggunakan data untuk membangun sebelumnya.
Untuk contoh dalam pemodelan campuran, lihat Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667
Mereka menggunakan mean dan kisaran titik data sebagai hiperparameter untuk sebelumnya dan itu masuk akal.
Masalah menggunakan data dua kali terjadi ketika prior informatif berasal dari data, menurut pendapat saya.
Selama Anda memeriksa bahwa distribusi Anda sebelumnya "datar" di mana distribusi posterior memuncak, maka Anda tahu bahwa distribusi Anda sebelumnya tidak memiliki dampak yang kuat pada hasil.
sumber