Apakah posterior Bayesian perlu distribusi yang tepat?

21

Saya tahu bahwa prior tidak harus tepat dan bahwa fungsi kemungkinan tidak berintegrasi dengan 1. Tetapi apakah posterior perlu distribusi yang tepat? Apa implikasinya jika tidak?

distributions bayesian posterior ATJ
sumber

15

(Agak mengherankan untuk membaca jawaban sebelumnya, yang fokus pada potensi ketidaktepatan posterior ketika yang sebelumnya tepat, karena, sejauh yang saya tahu, pertanyaannya adalah apakah posterior itu harus tepat atau tidak ( yaitu, dapat diintegrasikan ke satu) menjadi posterior yang layak (yaitu, dapat diterima untuk inferensi Bayesian).

Dalam statistik Bayesian, distribusi posterior memiliki menjadi distribusi probabilitas, dari yang satu dapat memperoleh saat-saat seperti posterior berarti dan probabilitas pernyataan seperti jangkauan yang kredibel wilayah, . Jika posterior tidak dapat dinormalisasi menjadi kepadatan probabilitas dan inferensi Bayesian tidak dapat dilakukan. Posterior sama sekali tidak ada dalam kasus seperti itu. $\mathbb{E}^\pi[h(\theta)|x]$ $\mathbb{P}(\pi(\theta|x)>\kappa|x)$

\int f (x | θ) π (θ) d θ = + \infty, (1)

$\int f(x|\theta)\,\pi(\theta)\,\text{d}\theta = +\infty\,,\qquad (1)$

π (θ | x)

$\pi(\theta|x)$

Sebenarnya, (1) harus tahan untuk semua di ruang sampel dan tidak hanya untuk diamati , jika tidak, memilih yang sebelumnya akan tergantung pada data . Ini berarti bahwa prior seperti Haldane sebelumnya, , pada probabilitas dari Binomial atau variabel Binomial Negatif tidak dapat digunakan, karena posterior tidak didefinisikan untuk . $x$ $x$ $\pi(p)\propto \{1/p(1-p)\}$ $p$ $X$ $x=0$

Saya tahu satu pengecualian ketika seseorang dapat mempertimbangkan "posisi yang tidak tepat": ditemukan dalam "The Art of Data Augmentation" oleh David van Dyk dan Xiao-Li Meng. Ukuran yang tidak tepat adalah lebih dari apa yang disebut parameter kerja sehingga pengamatan dihasilkan oleh marginal dari distribusi augmented dan van Dyk dan Meng meletakkan sebelumnya yang tidak tepat pada parameter kerja ini untuk mempercepat simulasi (yang tetap didefinisikan sebagai kepadatan probabilitas) oleh MCMC. $\alpha$

f (x | θ) = \int_{T (x^{aug}) = x} f (x^{aug} | θ, α) d x^{aug}

$f(x|\theta)=\int_{T(x^\text{aug})=x} f(x^\text{aug}|\theta,\alpha)\,\text{d}x^\text{aug}$

p (α)

$p(\alpha)$

α

$\alpha$

π (θ | x)

$\pi(\theta|x)$

Dalam perspektif lain, agak terkait dengan jawaban oleh eretmochelys , yaitu perspektif teori keputusan Bayesian , pengaturan di mana (1) terjadi masih bisa diterima jika mengarah ke keputusan yang optimal. Yaitu, jika adalah fungsi kerugian mengevaluasi dampak dari menggunakan keputusan , keputusan optimal Bayesian di bawah sebelumnya diberikan oleh dan yang terpenting adalah bahwa integral ini tidak ada di mana-mana (dalam ) tak terbatas. Apakah (1) tahan adalah sekunder untuk derivasi $L(\delta,\theta)\ge 0$ $\delta$ $\pi$

δ^{⋆} (x) = \arg min_{δ} \int L (δ, θ) f (x | θ) π (θ) d θ

$\delta^\star(x)=\arg\min_\delta \int L(\delta,\theta) f(x|\theta)\,\pi(\theta)\,\text{d}\theta$

δ

$\delta$

δ^{⋆} (x)

$\delta^\star(x)$ , meskipun properti seperti penerimaan hanya dijamin ketika (1) berlaku.

Xi'an
sumber

19

Distribusi posterior tidak perlu tepat bahkan jika sebelumnya sudah tepat. Sebagai contoh, misalkan memiliki Gamma sebelumnya dengan bentuk 0.25 (yang tepat), dan kami memodelkan datum kami yang diambil dari distribusi Gaussian dengan mean nol dan varians . Misalkan diamati nol. Maka kemungkinan sebanding dengan , yang membuat distribusi posterior untuk tidak benar, karena sebanding dengan . Masalah ini muncul karena sifat aneh dari variabel kontinu. $v$ $x$ $v$ $x$ $p(x|v)$ $v^{-0.5}$ $v$ $v^{-1.25} e^{-v}$

Tom Minka
sumber

Contoh keren, Tom!

Zen

+1, namun dapatkah Anda memperluas jawaban untuk kalimat terakhir OP? Apakah posterior aneh ini bermakna (dapatkah Anda melakukan hal-hal yang biasanya Anda lakukan dengan posterior), atau apakah lebih analog dengan mendapatkan NaN atau Inf dari beberapa perhitungan? Apakah itu pertanda bahwa ada yang salah dengan model Anda?

Wayne

5

Tidak ada yang salah dengan modelnya. Posterior ini bermakna dalam arti bahwa jika Anda menerima pengamatan lain, Anda dapat melipatgandakannya dan mungkin kembali ke posterior yang tepat. Jadi tidak seperti NaN, yang mana semua operasi lebih lanjut adalah NaN.

Tom Minka

8

Meskipun ini mungkin terlalu terlambat untuk masalah, saya tidak berpikir menggunakan bantuan contoh "kontra-contoh" seperti itu: masalah muncul karena Anda menggunakan versi spesifik kepadatan Gaussian pada , ketika itu dapat ditentukan secara sewenang-wenang pada set ini. dari ukuran nol. Dan karenanya membuat posterior tepat atau tidak layak tergantung pada versi yang dipilih.

x = 0

$x=0$

Xi'an

Menarik - jika Anda mengambil umum , maka posterior adalah gaussian terbalik umum dengan parameter . @ Xi'an - akan baik untuk melihat cara alternatif untuk mendapatkan posterior yang tepat dari ini.

x

$x$

- 0.25, 1, x^{2}

$-0.25,1,x^2$

probabilityislogic

11

Menentukan set kami punya Integral terakhir akan sama dengan jika ukuran Lebesgue dari positif. Tapi ini tidak mungkin, karena integral ini memberi Anda probabilitas (bilangan real antara dan ). Oleh karena itu, itu mengikuti bahwa ukuran Lebesgue dari sama dengan , dan, tentu saja, juga mengikuti bahwa

Bogus Data = {x : \int f (x ∣ θ) π (θ) d θ = \infty},

$\text{Bogus Data} = \left\{ x:\int f(x\mid \theta)\,\pi(\theta)\,d\theta = \infty \right\} \, ,$

P r (X \in Bogus Data) = \int_{Bogus Data} \int f (x ∣ θ) π (θ) d θ d x = \int_{Bogus Data} \infty d x .

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right) = \int_\text{Bogus Data} \int f(x\mid \theta)\,\pi(\theta)\,d\theta\,dx = \int_\text{Bogus Data} \infty\,dx \, .$

\infty

$\infty$

Bogus Data

$\text{Bogus Data}$

0

$0$

1

$1$

Bogus Data

$\text{Bogus Data}$

0

$0$

P r (X \in Bogus Data) = 0

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)=0$ .

Dengan kata lain: probabilitas prediktif sebelumnya dari nilai-nilai sampel yang membuat posterior tidak tepat sama dengan nol.

Moral dari cerita ini: waspadalah terhadap set nol, mereka mungkin menggigit, betapapun mustahilnya itu.

PS Seperti yang ditunjukkan oleh Prof. Robert dalam komentar, alasan ini meledak jika sebelumnya tidak tepat.

Zen
sumber

4

Anda pernah menulis : "Jika kita bisa mulai dengan prior yang tepat dan mendapatkan posterior yang tidak tepat, maka saya akan berhenti menarik kesimpulan."

Tom Minka

2

Sedikit lidah di pipi, ada kuantifier implisit: Jika kita bisa mulai dengan prior yang tepat dan mendapatkan posterior yang tidak tepat, untuk setiap nilai sampel yang mungkin, maka saya akan berhenti menarik kesimpulan. ;-)

Zen

Omong-omong, ingatan yang luar biasa, Tom!

Zen

4

@ Zen: Saya pikir ada masalah dengan alasan Anda mengasumsikan bahwa adalah sebuah probabilitas, oleh karena itu ukuran gabungan pada adalah ukuran probabilitas, yang menyiratkan bahwa prior harus menjadi ukuran probabilitas (tepat).

P r (X \in Bogus Data)

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)$

(θ, x)

$(\theta,x)$

Xi'an

1

Kamu benar. Alasan dalam jawaban hanya bekerja dengan prior priors. Poin bagus. Saya akan menambahkan catatan.

Zen

3

"Distribusi" apa pun harus menjumlahkan (atau mengintegrasikan) ke 1. Saya dapat memikirkan beberapa contoh di mana orang mungkin bekerja dengan distribusi yang tidak dinormalisasi, tetapi saya merasa tidak nyaman menyebut apa pun yang terpinggirkan menjadi apa pun selain 1 sebagai "distribusi".

Mengingat bahwa Anda menyebutkan Bayesian posterior, saya yakin pertanyaan Anda mungkin berasal dari masalah klasifikasi mencari estimasi optimal diberikan beberapa fitur vektor $x$ $d$

\begin{aligned} \hat{x} & = \arg max_{x} P_{X | D} (x | d) \\ = \arg max_{x} \frac{P_{D | X} (d | x) P_{X} (x)}{P_{D} (d)} \\ = \arg max_{x} P_{D | X} (d | x) P_{X} (x) \end{aligned}

$\begin{align} \hat{x} &= \arg \max_x P_{X|D}(x|d) \\ &= \arg \max_x \frac{P_{D|X}(d|x) P_X(x)}{P_D(d)} \\ &= \arg \max_x {P_{D|X}(d|x) P_X(x)} \end{align}$

di mana persamaan terakhir berasal dari fakta bahwa tidak bergantung pada . Kita kemudian dapat memilih secara eksklusif berdasarkan nilai yang sebanding dengan posterior Bayesian kami, tetapi jangan bingung untuk probabilitas! $P_D$ $x$ $\hat{x}$ $P_{D|X}(d|x) P_X(x)$

eretmochelys
sumber

@ Zen, bisakah Anda lebih eksplisit tentang apa yang Anda anggap salah (atau secara fundamental tidak lengkap) tentang jawaban ini?

whuber

1

Salah satu cara untuk menafsirkan pertanyaan OP "apakah posterior perlu menjadi distribusi yang tepat?" adalah menanyakan apakah secara matematis dimungkinkan untuk memulai dengan prior dan end yang tepat dengan posterior yang tidak tepat. Jawaban Minka memberikan contoh eksplisit di mana hal itu terjadi. Saya mencoba melengkapinya dengan jawaban saya dan menunjukkan bahwa ini hanya dapat terjadi di dalam satu set probabilitas prediktif nol sebelumnya.

Zen

1

@ Zen Sepertinya bagi saya bahwa interpretasi yang terkait erat adalah "jika posterior tidak tepat, informasi apa yang bisa saya dapatkan dari itu?" Jawaban yang diterima ini sepertinya memberikan saran yang berguna dan benar terkait dengan itu dalam keadaan khusus (yang dijelaskan dengan jelas). Penerimaan itu tampak bagiku sebagai sinyal yang eretmochely menghantam rumah dengan tebakan cerdas tentang keadaan.

whuber

-2

Distribusi posterior yang tidak tepat hanya muncul ketika Anda memiliki distribusi sebelumnya yang tidak tepat. Implikasinya adalah bahwa hasil asimptotik tidak berlaku. Sebagai contoh, pertimbangkan data binomial yang terdiri dari sukses dan 0 kegagalan, jika menggunakan sebagai distribusi sebelumnya, maka posterior akan tidak tepat. Dalam situasi ini, yang terbaik adalah memikirkan pendistribusian sebelum yang tepat untuk menggantikan yang sebelumnya tidak tepat. $n$ $Beta(0,0)$

omidi
sumber

3

Jawaban ini salah. Lihat jawaban saya.

Tom Minka

Apakah posterior Bayesian perlu distribusi yang tepat?

Jawaban: