Saya tahu bahwa prior tidak harus tepat dan bahwa fungsi kemungkinan tidak berintegrasi dengan 1. Tetapi apakah posterior perlu distribusi yang tepat? Apa implikasinya jika tidak?
Saya tahu bahwa prior tidak harus tepat dan bahwa fungsi kemungkinan tidak berintegrasi dengan 1. Tetapi apakah posterior perlu distribusi yang tepat? Apa implikasinya jika tidak?
(Agak mengherankan untuk membaca jawaban sebelumnya, yang fokus pada potensi ketidaktepatan posterior ketika yang sebelumnya tepat, karena, sejauh yang saya tahu, pertanyaannya adalah apakah posterior itu harus tepat atau tidak ( yaitu, dapat diintegrasikan ke satu) menjadi posterior yang layak (yaitu, dapat diterima untuk inferensi Bayesian).
Dalam statistik Bayesian, distribusi posterior memiliki menjadi distribusi probabilitas, dari yang satu dapat memperoleh saat-saat seperti posterior berarti dan probabilitas pernyataan seperti jangkauan yang kredibel wilayah, . Jika posterior tidak dapat dinormalisasi menjadi kepadatan probabilitas dan inferensi Bayesian tidak dapat dilakukan. Posterior sama sekali tidak ada dalam kasus seperti itu. P (π(θ | x)>κ | x) ∫ f(x | θ)π ( θ | x )
Sebenarnya, (1) harus tahan untuk semua di ruang sampel dan tidak hanya untuk diamati , jika tidak, memilih yang sebelumnya akan tergantung pada data . Ini berarti bahwa prior seperti Haldane sebelumnya, , pada probabilitas dari Binomial atau variabel Binomial Negatif tidak dapat digunakan, karena posterior tidak didefinisikan untuk . p X x = 0
Saya tahu satu pengecualian ketika seseorang dapat mempertimbangkan "posisi yang tidak tepat": ditemukan dalam "The Art of Data Augmentation" oleh David van Dyk dan Xiao-Li Meng. Ukuran yang tidak tepat adalah lebih dari apa yang disebut parameter kerja sehingga pengamatan dihasilkan oleh marginal dari distribusi augmented dan van Dyk dan Meng meletakkan sebelumnya yang tidak tepat pada parameter kerja ini untuk mempercepat simulasi (yang tetap didefinisikan sebagai kepadatan probabilitas) oleh MCMC.f ( x | θ ) = ∫ T ( x aug ) = x f ( x aug | θ , α ) p ( α ) α π ( θ | x )
Dalam perspektif lain, agak terkait dengan jawaban oleh eretmochelys , yaitu perspektif teori keputusan Bayesian , pengaturan di mana (1) terjadi masih bisa diterima jika mengarah ke keputusan yang optimal. Yaitu, jika adalah fungsi kerugian mengevaluasi dampak dari menggunakan keputusan , keputusan optimal Bayesian di bawah sebelumnya diberikan oleh dan yang terpenting adalah bahwa integral ini tidak ada di mana-mana (dalam ) tak terbatas. Apakah (1) tahan adalah sekunder untuk derivasiπ δ ⋆ ( x ) = arg min δ ∫ L ( δ , θ ) f ( x | θ )δ δ ⋆ ( x )
Distribusi posterior tidak perlu tepat bahkan jika sebelumnya sudah tepat. Sebagai contoh, misalkan memiliki Gamma sebelumnya dengan bentuk 0.25 (yang tepat), dan kami memodelkan datum kami yang diambil dari distribusi Gaussian dengan mean nol dan varians . Misalkan diamati nol. Maka kemungkinan sebanding dengan , yang membuat distribusi posterior untuk tidak benar, karena sebanding dengan . Masalah ini muncul karena sifat aneh dari variabel kontinu.x v x p ( x | v ) v - 0,5 v v - 1,25 e - v
Menentukan set kami punya Integral terakhir akan sama dengan jika ukuran Lebesgue dari positif. Tapi ini tidak mungkin, karena integral ini memberi Anda probabilitas (bilangan real antara dan ). Oleh karena itu, itu mengikuti bahwa ukuran Lebesgue dari sama dengan , dan, tentu saja, juga mengikuti bahwa
Dengan kata lain: probabilitas prediktif sebelumnya dari nilai-nilai sampel yang membuat posterior tidak tepat sama dengan nol.
Moral dari cerita ini: waspadalah terhadap set nol, mereka mungkin menggigit, betapapun mustahilnya itu.
PS Seperti yang ditunjukkan oleh Prof. Robert dalam komentar, alasan ini meledak jika sebelumnya tidak tepat.
sumber
"Distribusi" apa pun harus menjumlahkan (atau mengintegrasikan) ke 1. Saya dapat memikirkan beberapa contoh di mana orang mungkin bekerja dengan distribusi yang tidak dinormalisasi, tetapi saya merasa tidak nyaman menyebut apa pun yang terpinggirkan menjadi apa pun selain 1 sebagai "distribusi".
Mengingat bahwa Anda menyebutkan Bayesian posterior, saya yakin pertanyaan Anda mungkin berasal dari masalah klasifikasi mencari estimasi optimal diberikan beberapa fitur vektorx d
di mana persamaan terakhir berasal dari fakta bahwa tidak bergantung pada . Kita kemudian dapat memilih secara eksklusif berdasarkan nilai yang sebanding dengan posterior Bayesian kami, tetapi jangan bingung untuk probabilitas! x x P D | X ( d | x ) P X ( x )PD x x^ PD|X(d|x)PX(x)
sumber
Distribusi posterior yang tidak tepat hanya muncul ketika Anda memiliki distribusi sebelumnya yang tidak tepat. Implikasinya adalah bahwa hasil asimptotik tidak berlaku. Sebagai contoh, pertimbangkan data binomial yang terdiri dari sukses dan 0 kegagalan, jika menggunakan sebagai distribusi sebelumnya, maka posterior akan tidak tepat. Dalam situasi ini, yang terbaik adalah memikirkan pendistribusian sebelum yang tepat untuk menggantikan yang sebelumnya tidak tepat.B e t a ( 0 , 0 )n Beta(0,0)
sumber