Bagaimana seorang Bayesian memperbarui kepercayaannya ketika sesuatu dengan probabilitas 0 terjadi?

Tentukan "koin memiliki probabilitas 1 untuk mendarat" Asumsikan bahwa seseorang memiliki kepercayaan sebelumnya: . Namun setelah melempar koin setelah mendaratkan ekor ( "koin mendaratkan ekor"). Bagaimana seharusnya seorang Bayesian memperbarui keyakinannya agar tetap koheren? tidak terdefinisi, karena . Namun, bagi saya tampaknya karena kepercayaannya sebelumnya sangat tidak masuk akal (tentu saja probabilitas 0 tidak berarti tidak mungkin) ia harus entah bagaimana dapat memperbarui keyakinannya menurut beberapa aturan. $X:=$ $P(X)= 1$ $E:=$ $P(X|E)$ $P(E) = 0$

Apakah ini hanya kasus patologis di mana pembaruan Bayesian tidak berfungsi atau saya tidak mengetahui solusi untuk masalah ini?

probability bayesian philosophical Sebastian
sumber

Contohnya adalah dia menyadari bahwa dia adalah seorang wanita.

Nick Cox

Saya pikir pertanyaan ini jauh lebih luas cakupannya daripada analisis Bayesian. Bukankah itu benar-benar bertanya apa yang harus dilakukan seseorang dalam menghadapi bukti bahwa asumsi seseorang salah? Saya akan ragu menyebut situasi ini "patologis" karena itu terjadi setiap saat. Apa yang benar-benar patologis adalah situasi di mana orang menolak untuk mengubah asumsi (atau kepercayaan) mereka di hadapan bukti yang tak terbantahkan. (Orang-orang semacam itu biasanya disebut "politisi" daripada "Bayesians" :-).)

whuber

@whuber saya semua suka mengolok-olok dan mencibir politisi (yang salah), tetapi sains juga tidak kebal. Planck mengatakan dalam Autobiografinya bahwa sebuah teori baru kadang-kadang hanya menang ketika generasi yang lebih tua yang menolak untuk menganggapnya serius semuanya mati.

Nick Cox

@Nick Saya yakin Anda memahami situasi dalam sains lebih kompleks dari itu. (Ya, situasi dalam politik juga lebih kompleks ...). Setengah abad yang lalu, Thomas Kuhn adalah orang pertama yang menghargai itu dan menjelaskan alasan yang lebih dalam.

whuber

@whuber Setuju. Ilmuwan yang baik mengubah pikiran mereka dengan cepat di hadapan logika dan bukti, dan banyak dari kita membuang banyak ide buruk bahkan sebelum mencoba untuk mempublikasikannya. (Detail mendetail: Itu adalah buku paling terkenal Kuhn di mana saya pikir saya pertama kali menemukan referensi Planck.)

Nick Cox

Jawaban:

Setiap probabilitas posterior valid dalam kasus ini

Ini adalah pertanyaan yang menarik, yang masuk ke wilayah fondasi probabilitas. Ada beberapa pendekatan yang mungkin di sini, tetapi untuk alasan yang akan saya uraikan segera, pendekatan yang saya sukai adalah untuk memberikan definisi yang lebih luas tentang probabilitas kondisional yang analog dengan definisi ketika berurusan dengan variabel acak kontinu. (Perincian metode ini ditunjukkan di bawah ini.) Dalam kasus khusus ini, ini mengarah pada kesimpulan bahwa Bayesian dapat memiliki keyakinan posterior tentang , dan ini menghasilkan seperangkat keyakinan yang koheren (meskipun mereka telah mengamati suatu peristiwa yang mereka yakini memiliki probabilitas nol). $X$

Keuntungan dari pendekatan ini adalah memberikan distribusi posterior yang terdefinisi dengan baik, dan memungkinkan Bayesian untuk memperbarui keyakinan mereka tergantung pada pengamatan suatu peristiwa yang ditetapkan terjadi dengan probabilitas nol. Posterior pada dasarnya diperbarui secara sewenang-wenang (setiap probabilitas posterior sama-sama koheren), tetapi fleksibilitas itu tidak mengejutkan mengingat apa yang telah terjadi. Dalam hal ini, orang Bayesia yang berbeda dengan kepercayaan sebelumnya yang sama dapat secara sah sampai pada kesimpulan posterior yang berbeda, karena fakta bahwa mereka semua telah mengamati suatu peristiwa dengan probabilitas nol apriori .

Probabilitas bersyarat untuk variabel acak kontinu: Ketika kita berurusan dengan variabel acak kontinu, fungsi probabilitas bersyarat didefinisikan melalui turunan Radon-Nikodym , dan pada dasarnya hanya membutuhkan fungsi untuk memenuhi hukum probabilitas gabungan. Jika dan adalah variabel acak kontinu (bukan peristiwa diskrit) dalam ruang probabilitas maka kita akan mendefinisikan fungsi probabilitas bersyarat sebagai setiap pengukuran non-negatif yang dapat diukur. fungsi yang memenuhi persamaan integral: $X$ $E$ $(\Omega, \mathscr{G}, P)$ $p(x|e)$

p (x) = \int_{E} p (x | e) d P (e) for all x \in X \in G .

$p(x) = \int \limits_\mathscr{E} p(x|e) \ dP(e) \quad \quad \quad \text{for all } x \in \mathscr{X} \in \mathscr{G}.$

Karena juga didefinisikan melalui turunan Radon-Nikodym, ini secara implisit berarti bahwa dapat berupa fungsi terukur non-negatif yang memenuhi persamaan integral: $p(x)$ $p(x|e)$

P (X \in A) = \int_{A} \int_{E} p (x | e) d P (e) d x for all A \in G .

$\mathbb{P}(X \in \mathcal{A}) = \int \limits_\mathcal{A} \int \limits_\mathscr{E} p(x|e) \ dP(e) \ dx \quad \quad \quad \text{for all } \mathcal{A} \in \mathscr{G}.$

Ini memberikan solusi non-unik untuk fungsi probabilitas bersyarat, meskipun dalam praktiknya, setiap solusi "hampir pasti" setara (yaitu, mereka berbeda hanya pada serangkaian hasil dengan probabilitas nol) sehingga tidak ada masalah dengan non-keunikan. .

Menentukan probabilitas kondisional untuk kejadian diskrit: Definisi standar untuk probabilitas kondisional untuk kejadian diskrit adalah rumus rasio yang terkenal, di mana penyebutnya adalah probabilitas kejadian pengkondisian. Jelas, dalam kasus di mana peristiwa pengkondisian memiliki probabilitas nol, objek ini tidak terdefinisi. Solusi yang jelas di sini adalah memperluas definisi dengan cara yang analog dengan metode yang digunakan dalam kasus kontinu. Yaitu, kita mendefinisikan pasangan probabilitas bersyarat dan sebagai pasangan nilai antara nol dan satu yang memenuhi persamaan: $\mathbb{P}(X|E)$ $\mathbb{P}(X|\bar{E})$

P (X) = P (X | E) \times P (E) + P (X | \bar{E}) \times (1 - P (E)) .

$\mathbb{P}(X) = \mathbb{P}(X|E) \times \mathbb{P}(E) + \mathbb{P}(X|\bar{E}) \times (1-\mathbb{P}(E)).$

Dalam kasus yang ditentukan dalam pertanyaan, kami memiliki keyakinan sebelumnya dan distribusi sampling , yang mengarah ke . Mengganti nilai-nilai ini ke dalam persamaan di atas memberi: $\mathbb{P}(X) = 1$ $\mathbb{P}(E|X) = 0$ $\mathbb{P}(E) = 0$

1 = P (X | E) \times 0 + P (X | \bar{E}) \times 1.

$1 = \mathbb{P}(X|E) \times 0 + \mathbb{P}(X|\bar{E}) \times 1.$

Kita dapat melihat bahwa persamaan ini puas dengan mengambil dan . Dengan demikian, probabilitas bersyarat (posterior) dapat secara koheren merupakan nilai antara nol dan satu. Ketika kami mengatakan bahwa ini adalah "koheren", kami hanya berarti bahwa probabilitas posterior tidak konsisten dengan probabilitas lain yang ditetapkan dalam masalah (yaitu, probabilitas sebelum dan pengambilan sampel). $\mathbb{P}(X|\bar{E}) = 1$ $0 \leqslant \mathbb{P}(X|E) \leqslant 1$ $\mathbb{P}(X|E)$

Mengapa pendekatan ini paling masuk akal: Sangat mungkin bahwa analisis Bayesian dapat melibatkan pengamatan peristiwa diskrit yang memiliki probabilitas nol yang ditetapkan dalam distribusi sebelumnya. Sebagai contoh, dalam model standar pembalikan koin, kami menetapkan distribusi Bernoulli untuk hasil kepala / ekor, tetapi ada kemungkinan bahwa koin dapat bertumpu pada ujungnya (sehingga tidak menjadi kepala atau ekor). Otak tidak boleh meledak dalam kasus ini, dan karena itu berkenaan dengan alasan Bayesian untuk memiliki cara yang jelas untuk melanjutkan dalam kasus ini.

Keuntungan utama dari pendekatan yang saya uraikan adalah selalu mengarah pada setidaknya satu nilai yang diijinkan untuk probabilitas posterior (yaitu, probabilitas posterior didefinisikan dengan baik ). Probabilitas posterior tidak didefinisikan secara unik, tetapi itu adalah cabang alami dari fakta bahwa ada beberapa nilai yang sama-sama koheren dengan pengamatan sampling probabilitas nol. Pendekatan ini berarti bahwa Bayesian bebas untuk menentukan probabilitas posterior, dan ini sama koheren dengan yang lain. (Ingatlah bahwa ketika kita mengatakan "koheren" di sini, kita berbicara tentang koherensi dengan keyakinan sebelumnya yang menetapkan probabilitas nol untuk peristiwa diskrit yang benar-benar terjadi, sehingga koherensi dengan itu bukan bar yang tinggi!)

Ada manfaat besar lain untuk pendekatan ini , yaitu memungkinkan Bayesian untuk memperbarui keyakinannya dalam menanggapi mengamati suatu peristiwa yang memiliki kemungkinan pengambilan sampel nol di bawah sebelumnya, dan khususnya, Bayesian sekarang dapat merevisi keyakinannya. sehingga mereka tidak lagi menganggap nol probabilitas untuk acara ini . Dalam contoh yang Anda berikan, Bayesian sebelumnya memiliki keyakinan bahwa benar hampir pasti, beli kemudian amati suatu peristiwa dengan probabilitas sampling nol yang tergantung pada peristiwa ini. Sekarang Bayesian bebas untuk memperbarui keyakinannya ke probabilitas posterior untuk yang tidak satu (dan probabilitas posterior yang sesuai untuk $X$ $X$ $\bar{X}$ itu bukan nol). Jadi, pada intinya, orang Bayesian sekarang dapat mengatakan, "Oh, sial! Itu tadi konyol! Biarkan saya memperbarui kepercayaan saya pada peristiwa itu sehingga tidak lagi terjadi hampir pasti! Selain itu, ini bukan perubahan ad hoc , tetapi pembaruan "koheren" yang sah dilakukan di bawah teorema Bayes.

Ben - Pasang kembali Monica
sumber

Ada asumsi implisit dalam semua alasan, Bayesian atau yang lain, bahwa kita tahu segala sesuatu yang bisa terjadi dan dipertanggungjawabkan. Jika sesuatu terjadi yang tidak mungkin di bawah model, itu hanya berarti bahwa anggapan itu salah. Hal utama yang harus dilakukan adalah kembali dan memperluas model, dan memulai kembali. Setidaknya dalam kerangka Bayesian, proses ini relatif mudah untuk diformalkan - alih-alih inferensi dalam model tunggal, orang akan melakukan inferensi dalam serangkaian model.

Pada titik tertentu, kemampuan manusia kita untuk membuat model dalam model harus habis. Bahkan dengan bantuan otomatis (yaitu komputer atau apa pun), harus ada batas atas kompleksitas "ibu dari semua model". Saya tidak tahu apa yang harus dilakukan dalam keadaan itu, tetapi kami tentu sangat jauh dari itu, ketika kami bekerja dengan model parametrik khas yang ditemukan dalam aplikasi.

Robert Dodier
sumber

Ini terkait dengan bidang logika. khususnya, pernyataan salah menyiratkan semua pernyataan lainnya, benar atau salah. Dalam skenario Anda adalah pernyataan yang salah. Ini berarti kita dapat menulis untuk setiap proposisi . Sebagai contoh, kita memiliki (itu menyiratkan ekor) dan juga (itu menyiratkan bukan ekor juga)! $X$ $X\implies S$ $S$ $X\implies E$ $X\implies E^c$

Ini juga konsisten dengan solusi Ben (atur posterior ke nilai apa pun yang Anda inginkan). Jelas ini tidak terlalu berguna dalam aplikasi. Karena saya cukup yakin tidak memerlukan kerangka matematika untuk mengarang hasil apa pun yang saya inginkan.

Apa artinya, adalah bahwa seseorang tidak boleh memasukkan pernyataan palsu yang diketahui ke dalam probabilitas sebelumnya. Ini sama saja dengan orang seharusnya tidak menggunakan pernyataan palsu tentang data. Dalam hal menangani masalah "angsa hitam", kita dapat menangani hal ini secara konseptual dengan menetapkan beberapa peluang kecil, tetapi bukan nol bahwa "asumsi kerja" kita salah. Jika Anda menyebut pernyataan ini sebagai "asumsi kerja saya sudah benar", dan tetapkan itu sebelumnya sama dengan . Ada beberapa situasi mustahil di bawah asumsi kerja, yang berarti bahwa kemungkinan untuk beberapa nilai "data" yang ada di wilayah "mustahil" $A_w$ $p(A_w)=1-\epsilon$ $p(d\in D_{impossible}|A_w)=0$ $d$ $D_{impossible}$ ketika asumsi kerja berlaku. Sebut acara ini . Ini juga berarti bahwa . Kami berasumsi bahwa (yaitu "tidak mungkin" data mungkin jika asumsi kerja salah). Dan akhirnya . $Q:=d\in D_{impossible}$ $p(Q^c|A_w)=1-p(Q|A_w)=1$ $p(Q|A_w^c)=\delta>0$ $p(Q^c|A_w^c)=1-p(Q|A_w^c)=1-\delta$

Sekarang kami memiliki dua skenario. Yang pertama adalah bahwa datanya "normal" (artinya benar) $Q^c$

p (A_{w} | Q^{c}) = \frac{p (A_{w}) p (Q^{c} | A_{w})}{p (A_{w}) p (Q^{c} | A_{w}) + p (A_{w}^{c}) p (Q^{c} | A_{w}^{c})} = \frac{1 - ϵ}{1 - ϵ + ϵ (1 - δ)} = \frac{1 - ϵ}{1 - δ ϵ} > 1 - ϵ

$p(A_w|Q^c)= \frac{p(A_w)p(Q^c|A_w)}{p(A_w)p(Q^c|A_w)+p(A_w^c)p(Q^c|A_w^c)}= \frac{1-\epsilon}{1-\epsilon+\epsilon(1-\delta)}=\frac{1-\epsilon}{1-\delta \epsilon} > 1-\epsilon$

Yang kedua adalah bahwa data itu "tidak mungkin" (artinya benar) $Q$

p (A_{w} | Q) = \frac{p (A_{w}) p (Q | A_{w})}{p (A_{w}) p (Q | A_{w}) + p (A_{w}^{c}) p (Q | A_{w}^{c})} = \frac{0}{0 + ϵ δ} = 0.

$p(A_w|Q)= \frac{p(A_w)p(Q|A_w)}{p(A_w)p(Q|A_w)+p(A_w^c)p(Q|A_w^c)}=\frac{0}{0+\epsilon\delta}=0.$

Sekarang mudah-mudahan ini dengan sangat jelas menunjukkan bahwa jika asumsi Anda terpenuhi, dan Anda sudah memiliki probabilitas sebelumnya yang sangat tinggi, posterior setidaknya sama tinggi (dan seringkali lebih tinggi). Jadi nilai apa pun untuk Anda gunakan untuk mewakili "pada dasarnya tidak mungkin" sebelum melihat data, Anda harus menggunakan nilai yang lebih kecil setelah melihat prediksi dikonfirmasi. $\epsilon$

Saat melakukan perhitungan, dengan asumsi tidak akan menyesatkan Anda. Jadi Anda "menyerap" ke dalam informasi sebelumnya $p(A_w|Q^c)=1$ $A_w,Q^c$

Sekarang, bagaimana bila hal yang mustahil terjadi? Kalau begitu Anda perlu membongkar dan mengubah kemungkinan Anda dan sebelum sesuai dengan apa yang salah dengan asumsi Anda.

probabilityislogic
sumber

Ini adalah jawaban yang menarik (+1). Saya telah mengambil kebebasan untuk melakukan koreksi kecil untuk memperhitungkan kasus di mana , yang tidak dikecualikan dalam kondisi Anda sebelumnya. Jika Anda bermaksud memaksakan pembatasan untuk mendapatkan ketimpangan yang ketat, harap edit sesuai.

γ = 1

$\gamma = 1$

γ < 1

$\gamma < 1$

Ben - Pasang kembali Monica

Saya menyadari bahwa dalam jawaban asli saya. Sebagai ini berarti ketimpangan harus ketat.

γ = 1 - δ

$\gamma=1-\delta$

δ > 0

$\delta>0$

probabilityislogic