Saya mengambil kursus Intro to Bayes dan saya mengalami kesulitan memahami distribusi prediktif. Saya mengerti mengapa mereka berguna dan saya akrab dengan definisi, tetapi ada beberapa hal yang saya tidak mengerti.
1) Cara mendapatkan distribusi prediksi yang tepat untuk vektor pengamatan baru
Misalkan kita telah membangun model sampling untuk data dan sebelumnya . Asumsikan bahwa pengamatan independen tergantung kondisi .
Kami telah mengamati beberapa data , dan kami memperbarui sebelumnya ke posterior .
Jika kami ingin memprediksi vektor pengamatan baru , saya pikir kita harus mencoba untuk mendapatkan prediksi posterior menggunakan rumus ini yang tidak sama dengan jadi pengamatan yang diprediksi tidak independen, kan?n ∏ i = 1 ∫ p ( θ | D ) p ( ˜ y i | θ )
Katakan itu Beta ( a, b ) dan p (y_i | \ theta) \ sim Binomial ( n, \ theta ) untuk fix n . Dalam hal ini, jika saya ingin mensimulasikan 6 \ tilde baru {y} , jika saya memahami ini dengan benar, akan salah untuk mensimulasikan 6 gambar secara independen dari distribusi Beta-Binomial yang sesuai dengan prediksi posterior untuk pengamatan tunggal. Apakah ini benar? Saya tidak tahu bagaimana menafsirkan bahwa pengamatan tidak independen secara marjinal, dan saya tidak yakin saya mengerti ini dengan benar.a , b p ( y i | θ ) ∼ n , θ n ˜ y
Simulasi dari prediksi posterior
Sering kali ketika kita mensimulasikan data dari prediksi posterior kita mengikuti skema ini:
Untuk dari 1 ke :
1) Contoh dari . p ( θ | D )
2) Kemudian simulasikan data baru dari . p( N | θ ( b ) )
Saya tidak tahu bagaimana cara membuktikan skema ini bekerja, meskipun terlihat intuitif. Juga, apakah ini punya nama? Saya mencoba mencari pembenaran dan saya mencoba nama yang berbeda, tetapi saya tidak beruntung.
Terima kasih!
sumber
Jawaban:
Misalkan bersyarat independen mengingat . Kemudian, di mana kesetaraan pertama mengikuti dari hukum probabilitas total, yang kedua mengikuti dari aturan produk, dan yang ketiga dari kemandirian kondisional yang diasumsikan: diberi nilai Θ = θ f X n + 1 ∣ X 1 , … , X n ( x n + 1 ∣ x 1 , … , x n ) = ∫ f X n + 1 , Θ ∣ X 1 , … , X n ( xX1, ... , Xn, Xn + 1 Θ = θ = ∫ f X n + 1 ∣ Θ , X 1 , … , X n ( x n + 1 ∣ θ , x 1 , … , x n ) f Θ ∣ X 1 , … , X n ( θ ∣ x 1 , … , X n )
Skema simulasi sudah benar: untuk , draw dari distribusi , lalu gambar dari distribusi . Ini memberi Anda sampel dari distribusi .θ ( i ) Θ ∣ X 1 = x 1 , … , X n = x n x ( i ) n + 1 X n + 1 ∣ Θ = θ ( i ) { x ( i ) n + 1 } N i = 1 X n + 1i = 1 , … , N θ( i ) Θ ∣ X1= x1, ... , Xn= xn x( i )n + 1 Xn + 1∣ Θ = θ( i ) { x( i )n + 1}Ni = 1 Xn + 1∣ X1= x1, ... , Xn= xn
sumber
Saya akan mencoba membahas intuisi di balik menghasilkan distribusi prediktif posterior langkah demi langkah.
Biarkan menjadi vektor dari data yang diamati yang berasal dari distribusi probabilitas dan biarkan menjadi vektor nilai masa depan (atau di luar sampel) yang ingin kami prediksi. Kami berasumsi bahwa berasal dari distribusi yang sama dengan . Mungkin tergoda untuk menggunakan estimasi terbaik kami dari --- seperti estimasi MLE atau MAP --- untuk mendapatkan informasi tentang distribusi ini. Namun, melakukan hal itu pasti akan mengabaikan ketidakpastian kita tentang . Dengan demikian, cara yang tepat untuk memproses adalah dengan rata-rata di atas distribusi posterior , yaitu . Perhatikan juga bahwap ( y | θ ) ˜ y ˜ y y θ θ θ p ( θ | y ) ˜ y y θ yy p ( y| θ) y~ y~ y θ θ θ p ( θ | y) y~ tidak bergantung pada diberikan , karena diasumsikan sebagai sampel independen yang diambil dari distribusi yang sama dengan . Jadi,y θ y
Distribusi prediksi posterior dari adalah demikian,y~
di mana adalah dukungan dari .Θ θ
Sekarang, bagaimana kita mendapatkan sampel dari ? Metode yang Anda gambarkan kadang-kadang disebut metode komposisi , yang berfungsi sebagai berikut:p ( y~|y)
untuk s = 1,2, ..., S do
menggambar dariθ( s ) p ( θ | y)
menggambar dariy~( s ) p ( y~| θ( s ))
di mana, dalam sebagian besar situasi, kita sudah memiliki undian dari , sehingga hanya langkah kedua yang diperlukan.p ( θ | y)
Alasan mengapa ini bekerja sangat sederhana: Perhatikan pertama bahwa . Dengan demikian, sampling vektor parameter dari dan, kemudian, menggunakan vektor ini untuk sampel dari menghasilkan sampel dari distribusi bersama . Oleh karena itu, nilai sampel adalah sampel dari distribusi marginal, .p ( y~, θ |y) = p ( y~| θ, y) p ( θ | y) θ(s ) p ( θ | y) y~( s ) p ( ~ y , q | y ) ~ y ( s ) , s = 1 , 2 , . . . , S p ( ˜ y | y )p ( y~| θ(s )) = p( y~|θ(s ),y) p (y~, θ|y) y~( s ), S = 1 , 2 , . . . , S p ( y~|y)
sumber
Untuk menjawab pertanyaan pertama Anda: ya, pengamatan tidak independen jika Anda tidak tahu nilai . Katakanlah, Anda telah mengamati bahwa memiliki nilai yang agak ekstrem. Ini mungkin merupakan indikasi bahwa nilai itu sendiri ekstrem, dan, dengan demikian, Anda harus mengharapkan pengamatan lain juga ekstrem.˜ y 1 θθ y~1 θ
sumber