Memahami Distribusi Prediktif Bayesian

9

Saya mengambil kursus Intro to Bayes dan saya mengalami kesulitan memahami distribusi prediktif. Saya mengerti mengapa mereka berguna dan saya akrab dengan definisi, tetapi ada beberapa hal yang saya tidak mengerti.

1) Cara mendapatkan distribusi prediksi yang tepat untuk vektor pengamatan baru

Misalkan kita telah membangun model sampling untuk data dan sebelumnya . Asumsikan bahwa pengamatan independen tergantung kondisi . $p(y_i | \theta)$ $p(\theta)$ $y_i$ $\theta$

Kami telah mengamati beberapa data , dan kami memperbarui sebelumnya ke posterior . $\mathcal{D} = \{y_1, y_2, \, ... \, , y_k\}$ $p(\theta)$ $p(\theta | \mathcal{D})$

Jika kami ingin memprediksi vektor pengamatan baru , saya pikir kita harus mencoba untuk mendapatkan prediksi posterior menggunakan rumus ini yang tidak sama dengan jadi pengamatan yang diprediksi tidak independen, kan? $\mathcal{N} = \{\tilde{y}_1, \tilde{y}_2, \, ... \, , \tilde{y}_n\}$

p (N | D) = \int p (θ | D) p (N | θ) d θ = \int p (θ | D) \prod_{i = 1}^{n} p ({\tilde{y}}_{i} | θ) d θ,

$p(\mathcal{N} | \mathcal{D}) = \int p(\theta | \mathcal{D}) p ( \mathcal{N} | \theta) \, \mathrm{d} \theta = \int p(\theta | \mathcal{D}) \prod_{i=1}^n p(\tilde{y}_i | \theta) \, \mathrm{d} \theta,$

\prod_{i = 1}^{n} \int p (θ | D) p ({\tilde{y}}_{i} | θ) d θ,

$\prod_{i=1}^n \int p(\theta | \mathcal{D}) p(\tilde{y}_i | \theta) \, \mathrm{d} \theta,$

Katakan itu Beta ( ) dan Binomial ( ) untuk fix . Dalam hal ini, jika saya ingin mensimulasikan 6 , jika saya memahami ini dengan benar, akan salah untuk mensimulasikan 6 gambar secara independen dari distribusi Beta-Binomial yang sesuai dengan prediksi posterior untuk pengamatan tunggal. Apakah ini benar? Saya tidak tahu bagaimana menafsirkan bahwa pengamatan tidak independen secara marjinal, dan saya tidak yakin saya mengerti ini dengan benar. $\theta | \mathcal{D} \sim$ $a,b$ $p(y_i | \theta) \sim$ $n, \theta$ $n$ $\tilde{y}$

Simulasi dari prediksi posterior

Sering kali ketika kita mensimulasikan data dari prediksi posterior kita mengikuti skema ini:

Untuk $b$ dari 1 ke $B$ :

1) Contoh dari . $\theta^{(b)}$ $p(\theta | \mathcal{D})$

2) Kemudian simulasikan data baru dari . $\mathcal{N}^{(b)}$ $p(\mathcal{N} | \theta^{(b)})$

Saya tidak tahu bagaimana cara membuktikan skema ini bekerja, meskipun terlihat intuitif. Juga, apakah ini punya nama? Saya mencoba mencari pembenaran dan saya mencoba nama yang berbeda, tetapi saya tidak beruntung.

Terima kasih!

bayesian prediction Fred L.
sumber

Saya mengajukan pertanyaan serupa di stats.stackexchange.com/questions/72570/... tetapi sepertinya Anda telah menerima lebih banyak suara sejauh ini.

Yohanes

4

Misalkan bersyarat independen mengingat . Kemudian, di mana kesetaraan pertama mengikuti dari hukum probabilitas total, yang kedua mengikuti dari aturan produk, dan yang ketiga dari kemandirian kondisional yang diasumsikan: diberi nilai $X_1,\dots,X_n,X_{n+1}$ $\Theta=\theta$

f_{X_{n + 1} ∣ X_{1}, \dots, X_{n}} (x_{n + 1} ∣ x_{1}, \dots, x_{n}) = \int f_{X_{n + 1}, Θ ∣ X_{1}, \dots, X_{n}} (x_{n + 1}, θ ∣ x_{1}, \dots, x_{n}) d θ

$f_{X_{n+1}\mid X_1,\dots,X_n}(x_{n+1}\mid x_1,\dots,x_n) = \int f_{X_{n+1},\Theta\mid X_1,\dots,X_n}(x_{n+1},\theta\mid x_1,\dots,x_n)\,d\theta$

= \int f_{X_{n + 1} ∣ Θ, X_{1}, \dots, X_{n}} (x_{n + 1} ∣ θ, x_{1}, \dots, x_{n}) f_{Θ ∣ X_{1}, \dots, X_{n}} (θ ∣ x_{1}, \dots, x_{n}) d θ

$= \int f_{X_{n+1}\mid\Theta,X_1,\dots,X_n}(x_{n+1}\mid\theta,x_1,\dots,x_n) f_{\Theta\mid X_1,\dots,X_n}(\theta\mid x_1,\dots,x_n) \, d\theta$

= \int f_{X_{n + 1} ∣ Θ} (x_{n + 1} ∣ θ) f_{Θ ∣ X_{1}, \dots, X_{n}} (θ ∣ x_{1}, \dots, x_{n}) d θ,

$= \int f_{X_{n+1}\mid\Theta}(x_{n+1}\mid\theta) f_{\Theta\mid X_1,\dots,X_n}(\theta\mid x_1,\dots,x_n) \, d\theta \, ,$

Θ

$\Theta$ , kita tidak memerlukan nilai untuk menentukan distribusi .

X_{1}, \dots, X_{n}

$X_1,\dots,X_n$

X_{n + 1}

$X_{n+1}$

Skema simulasi sudah benar: untuk , draw dari distribusi , lalu gambar dari distribusi . Ini memberi Anda sampel dari distribusi . $i=1,\dots,N$ $\theta^{(i)}$ $\Theta\mid X_1=x_1,\dots,X_n=x_n$ $x_{n+1}^{(i)}$ $X_{n+1}\mid\Theta=\theta^{(i)}$ $\{x_{n+1}^{(i)}\}_{i=1}^N$ $X_{n+1}\mid X_1=x_1,\dots,X_n=x_n$

Zen
sumber

Bagaimana jika Anda mendapatkan prediksi posterior selama beberapa periode? Saya telah menggunakan untuk setiap , tetapi saya dapat melihat mengapa masuk akal untuk menggambar ulang theta baru.

θ^{(i)}

$\theta^{\left(i\right)}$

x_{n + j}

$x_{n+j}$

John

2

Saya akan mencoba membahas intuisi di balik menghasilkan distribusi prediktif posterior langkah demi langkah.

Biarkan menjadi vektor dari data yang diamati yang berasal dari distribusi probabilitas dan biarkan menjadi vektor nilai masa depan (atau di luar sampel) yang ingin kami prediksi. Kami berasumsi bahwa berasal dari distribusi yang sama dengan . Mungkin tergoda untuk menggunakan estimasi terbaik kami dari --- seperti estimasi MLE atau MAP --- untuk mendapatkan informasi tentang distribusi ini. Namun, melakukan hal itu pasti akan mengabaikan ketidakpastian kita tentang . Dengan demikian, cara yang tepat untuk memproses adalah dengan rata-rata di atas distribusi posterior , yaitu . Perhatikan juga bahwa $y$ $p(y|\theta)$ $\tilde y$ $\tilde y$ $y$ $\theta$ $\theta$ $\theta$ $p(\theta|y)$ $\tilde y$ tidak bergantung pada diberikan , karena diasumsikan sebagai sampel independen yang diambil dari distribusi yang sama dengan . Jadi, $y$ $\theta$ $y$

p (\tilde{y} | θ, y) = \frac{p (\tilde{y}, y | θ) p (θ)}{p (θ, y)} = \frac{p (\tilde{y} | θ) p (y | θ) p (θ)}{p (y | θ) p (θ)} = p (\tilde{y} | θ) .

$\displaystyle p(\tilde y| \theta, y) = \frac{p(\tilde y, y|\theta )p(\theta)}{p(\theta, y)} = \frac{p(\tilde y|\theta )p(y |\theta) p(\theta)}{p(y| \theta)p(\theta)} = p(\tilde y |\theta).$

Distribusi prediksi posterior dari adalah demikian, $\tilde y$

p (\tilde{y} | y) = \int_{Θ} p (\tilde{y} | θ, y) p (θ | y) d θ = \int_{Θ} p (\tilde{y} | θ) p (θ | y) d θ

di mana adalah dukungan dari . $\Theta$ $\theta$

Sekarang, bagaimana kita mendapatkan sampel dari ? Metode yang Anda gambarkan kadang-kadang disebut metode komposisi , yang berfungsi sebagai berikut: $p(\tilde y|y)$

untuk s = 1,2, ..., S do

menggambar dari $\theta^{(s)}$ $p(\theta|y)$

menggambar dari $\tilde y^{(s)}$ $p(\tilde y|\theta^{(s)})$

di mana, dalam sebagian besar situasi, kita sudah memiliki undian dari , sehingga hanya langkah kedua yang diperlukan. $p(\theta|y)$

Alasan mengapa ini bekerja sangat sederhana: Perhatikan pertama bahwa . Dengan demikian, sampling vektor parameter dari dan, kemudian, menggunakan vektor ini untuk sampel dari menghasilkan sampel dari distribusi bersama . Oleh karena itu, nilai sampel adalah sampel dari distribusi marginal, . $p(\tilde y, \theta | y) = p(\tilde y| \theta, y)p(\theta | y)$ $\theta^{(s)}$ $p(\theta|y)$ $\tilde y^{(s)}$ $p(\tilde y | \theta^{(s)}) = p(\tilde y | \theta^{(s)}, y)$ $p(\tilde y, \theta|y)$ $\tilde y^{(s)}, s=1,2,...,S$ $p(\tilde y|y)$

baruuum
sumber

1

Untuk menjawab pertanyaan pertama Anda: ya, pengamatan tidak independen jika Anda tidak tahu nilai . Katakanlah, Anda telah mengamati bahwa memiliki nilai yang agak ekstrem. Ini mungkin merupakan indikasi bahwa nilai itu sendiri ekstrem, dan, dengan demikian, Anda harus mengharapkan pengamatan lain juga ekstrem. $\theta$ $\tilde{y}_1$ $\theta$

hr0nix
sumber

Memahami Distribusi Prediktif Bayesian

Jawaban: