Dalam kesimpulan Bayesian, mengapa beberapa istilah dijatuhkan dari prediksi posterior?

12

Dalam analisis Konjugat Bayesian Kevin Murphy tentang distribusi Gaussian , ia menulis bahwa distribusi prediktif posterior adalah

p(xD)=p(xθ)p(θD)dθ

di mana D adalah data yang sesuai dengan model dan x adalah data yang tidak terlihat. Apa yang saya tidak mengerti adalah mengapa ketergantungan pada D menghilang pada istilah pertama dalam integral. Dengan menggunakan aturan dasar probabilitas, saya harapkan:

p(a)=p(ac)p(c)dcp(ab)=p(ac,b)p(cb)dcp(xD)=p(xθ,D)p(θD)dθ

Pertanyaan: Mengapa ketergantungan pada D dalam jangka waktu menghilang?


Untuk apa nilainya, saya telah melihat formulasi semacam ini (menjatuhkan variabel dalam kondisi) tempat lain. Sebagai contoh, dalam Deteksi Changepoint Online Bayesian Ryan Adam , ia menulis prediktif posterior sebagai

p(xt+1rt)=p(xt+1θ)p(θrt,xt)dθ

di mana lagi, karena D={xt,rt} , saya akan berharap

p(xt+1xt,rt)=p(xt+1θ,xt,rt)p(θrt,xt)dθ

gwg
sumber

Jawaban:

13

Ini didasarkan pada asumsi bahwa bersyarat bebas dari , diberikan . Ini adalah asumsi yang masuk akal dalam banyak kasus, karena semua yang dikatakannya adalah bahwa data pelatihan dan pengujian ( dan , masing-masing) dihasilkan secara independen dari serangkaian parameter yang tidak diketahui . Dengan asumsi independensi ini, , dan turun dari bentuk yang lebih umum yang Anda harapkan.xDθDxθp(x|θ,D)=p(x|θ)D

Dalam contoh kedua Anda, tampaknya asumsi independensi serupa diterapkan, tetapi sekarang (secara eksplisit) lintas waktu. Asumsi-asumsi ini dapat secara eksplisit dinyatakan di tempat lain dalam teks, atau mereka mungkin secara jelas jelas bagi siapa saja yang cukup akrab dengan konteks masalah (walaupun itu tidak selalu berarti bahwa dalam contoh khusus Anda - yang saya tidak kenal dengan - penulis benar untuk menganggap keakraban ini).

Ruben van Bergen
sumber
9

Itu karena dianggap independen dari diberikan . Dengan kata lain, semua data dianggap iid dari distribusi normal dengan parameter . Setelah diperhitungkan menggunakan informasi dari , tidak ada lagi informasi yang berikan kepada kita tentang titik data baru . Oleh karena itu .xDθθθDDxp(x|θ,D)=p(x|θ)

JP Trawinski
sumber