Bagaimana cara memformalkan distribusi probabilitas sebelumnya? Apakah ada aturan praktis yang harus digunakan?

9

Sementara saya suka berpikir saya memiliki pemahaman yang baik tentang konsep informasi sebelumnya dalam analisis statistik Bayesian dan pengambilan keputusan, saya sering mengalami kesulitan membungkus kepala saya di sekitar penerapannya. Saya telah memikirkan beberapa situasi yang mencontohkan perjuangan saya, dan saya merasa bahwa mereka tidak ditangani dengan benar dalam buku teks statistik Bayesian yang telah saya baca sejauh ini:

Katakanlah saya menjalankan survei beberapa tahun lalu yang mengatakan bahwa 68% orang akan tertarik untuk membeli produk ACME. Saya memutuskan untuk menjalankan survei lagi. Sementara saya akan menggunakan ukuran sampel yang sama seperti terakhir kali (katakanlah, n = 400), pendapat orang cenderung berubah sejak saat itu. Namun, jika saya menggunakan sebelumnya dengan distribusi beta di mana 272 dari 400 responden menjawab "ya", saya akan memberikan bobot yang sama untuk survei yang saya jalankan beberapa tahun yang lalu dan yang saya jalankan sekarang. Apakah ada aturan praktis untuk menetapkan ketidakpastian yang lebih besar yang ingin saya tempatkan sebelumnya berdasarkan data yang berusia beberapa tahun? Saya mengerti saya bisa mengurangi sebelumnya dari 272/400 menjadi, katakanlah, 136/200, tapi ini terasa sangat arbitrer, dan saya bertanya-tanya apakah ada beberapa bentuk pembenaran, mungkin dalam literatur,

Sebagai contoh lain, katakanlah kita akan menjalankan uji klinis. Sebelum meluncurkan uji coba, kami menjalankan beberapa penelitian sekunder yang dapat kami gunakan sebagai informasi sebelumnya, termasuk pendapat para ahli, hasil dari uji klinis sebelumnya (dari berbagai relevansi), fakta ilmiah dasar lainnya, dll. Bagaimana cara seseorang menggabungkan spektrum informasi tersebut? (beberapa di antaranya bersifat non-kuantitatif) dengan distribusi probabilitas sebelumnya? Apakah ini hanya kasus membuat keputusan yang keluarga harus memilih dan membuatnya cukup tersebar untuk memastikan itu kewalahan oleh data, atau apakah ada banyak pekerjaan yang dilakukan untuk membangun distribusi sebelumnya yang cukup informatif?

Phil
sumber

Jawaban:

4

Gagasan Anda untuk memperlakukan informasi Anda sebelumnya tentang 272 keberhasilan dalam 400 upaya memang memiliki justifikasi Bayesian yang cukup solid.

θ

π(θ)=Γ(α0+β0)Γ(α0)Γ(β0)θα01(1θ)β01
n_=α0+β02n_α01
π(θ)=Γ(α0+β0)Γ(α0)Γ(β0)θα01(1θ)n_(α01)
α0+β02=400α01=272α0=273β0=129α0=137β0=65
μ=αα+βandσ2=αβ(α+β)2(α+β+1)
alpha01 <- 273
beta01 <- 129
(mean01 <- alpha01/(alpha01+beta01))

alpha02 <- 137
beta02 <- 65
(mean02 <- alpha02/(alpha02+beta02))

tetapi meningkatkan varian sebelumnya dari

(priorvariance01 <- (alpha01*beta01)/((alpha01+beta01)^2*(alpha01+beta01+1)))
[1] 0.0005407484

untuk

(priorvariance02 <- (alpha02*beta02)/((alpha02+beta02)^2*(alpha02+beta02+1)))
[1] 0.001075066

seperti yang diinginkan.

Christoph Hanck
sumber