Mengapa meruntuhkan penyebut dalam Teorema Bayes?

23

(Saya seorang pemula di statistik. Saya seorang ahli matematika dan seorang programmer dan saya mencoba untuk membangun sesuatu seperti filter spam Bayesian yang naif.)

Saya perhatikan di banyak tempat bahwa orang cenderung menjabarkan penyebut dalam persamaan dari Teorema Bayes. Jadi alih-alih ini:

P(SEBUAH|B)P(B)P(SEBUAH)

Kami disajikan dengan ini:

P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Anda dapat melihat bahwa konvensi ini digunakan dalam artikel Wikipedia ini dan dalam postingan penuh wawasan ini oleh Tim Peters.

Saya bingung dengan ini. Mengapa penyebutnya dihancurkan seperti ini? Bagaimana hal itu membantu semuanya? Apa yang rumit tentang penghitungan , yang mana dalam kasus filter spam ?P(SEBUAH)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not

Ram Rachum
sumber
Saya menduga bahwa jawabannya adalah khusus domain (yaitu, khusus untuk filter spam). Jika Anda dapat menghitung komponen P (A | B) dll maka Anda harus dapat menghitung P (A) yang lebih sederhana seperti yang Anda nyatakan. Atau, mungkin jawabannya terkait dengan pedagogi sehingga pembaca memahami hubungan antara P (A) dan penguraiannya dalam istilah P (A | B), P (B) dll.
1
Saya tidak memiliki jawaban yang kuat, tetapi saya dapat mengatakan bahwa saya telah membuat kesalahan bodoh pada tes di mana saya bisa dengan mudah memasukkan givens ke penyebut eksplisit, tetapi saya pikir saya tahu P (A) dan saya salah.
Wayne

Jawaban:

16

Jawaban singkat untuk pertanyaan Anda adalah, "sebagian besar waktu kita tidak tahu apa itu P (keju), dan seringkali (relatif) sulit untuk dihitung."

Jawaban yang lebih lama mengapa Aturan / Teorema Bayes biasanya dinyatakan dengan cara yang Anda tulis adalah karena dalam masalah Bayes kita memiliki - duduk di pangkuan kita - distribusi sebelumnya (P (B) di atas) dan kemungkinan (P (A | B), P (A | notB) di atas) dan merupakan perkalian yang relatif sederhana untuk menghitung posterior (P (B | A)). Pergi ke masalah untuk mengekspresikan kembali P (A) dalam bentuk yang diringkas adalah upaya yang bisa digunakan di tempat lain.

Ini mungkin tidak tampak begitu rumit dalam konteks email karena, seperti yang Anda catat dengan benar, itu hanya P (keju), bukan? Masalahnya adalah bahwa dengan lebih banyak terlibat dalam masalah Bayesian di medan perang, penyebutnya merupakan integral yang tidak sedap dipandang, yang mungkin atau mungkin tidak memiliki solusi bentuk tertutup. Bahkan, kadang-kadang kita membutuhkan metode Monte Carlo yang canggih hanya untuk memperkirakan yang tidak terpisahkan dan mengaduk angka-angka itu bisa sangat menyulitkan di belakang.

Tetapi yang lebih penting, kita biasanya bahkan tidak peduli apa P (keju) itu. Ingatlah, kami mencoba mengasah kepercayaan kami mengenai apakah email itu spam atau tidak , dan tidak peduli tentang distribusi marjinal data (P (A), di atas). Ini hanyalah konstanta normalisasi, yang tidak bergantung pada parameter; tindakan penjumlahan menyapu info apa pun yang kami miliki tentang parameter. Konstanta adalah gangguan untuk menghitung dan pada akhirnya tidak relevan ketika datang untuk memusatkan perhatian pada keyakinan kita tentang apakah email spam atau tidak. Terkadang kita berkewajiban untuk menghitungnya, dalam hal ini cara tercepat untuk melakukannya adalah dengan informasi yang sudah kita miliki: yang sebelumnya dan kemungkinannya.


sumber
Bisakah seseorang memberikan dan memberi contoh 'suatu integral yang tidak sedap dipandang, yang mungkin atau mungkin tidak memiliki solusi bentuk tertutup', yang akan digunakan dalam beberapa masalah?
PaulG
8

Salah satu alasan untuk menggunakan aturan probabilitas total adalah bahwa kita sering berurusan dengan probabilitas komponen dalam ekspresi itu dan itu mudah untuk menemukan probabilitas marginal dengan hanya memasukkan nilai-nilai. Untuk ilustrasi tentang ini, lihat contoh berikut di Wikipedia:

Alasan lain adalah mengakui bentuk yang setara dari Aturan Bayes dengan memanipulasi ungkapan itu. Sebagai contoh:

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(SEBUAH|¬B)P(¬B)

Membagi melalui RHS dengan pembilang:

P(B|SEBUAH)=11+P(SEBUAH|¬B)P(SEBUAH|B)P(¬B)P(B)

Yang merupakan bentuk setara yang bagus untuk Aturan Bayes, dibuat lebih handier dengan mengurangi ini dari ekspresi asli untuk mendapatkan:

P(¬B|SEBUAH)P(B|SEBUAH)=P(SEBUAH|¬B)P(SEBUAH|B)P(¬B)P(B)

Ini adalah Peraturan Bayes yang dinyatakan dalam Odds, yaitu peluang posterior terhadap B = faktor Bayes terhadap B kali peluang sebelumnya terhadap B. (Atau Anda bisa membalikkannya untuk mendapatkan ekspresi dalam hal peluang untuk B.) Faktor Bayes adalah rasio kemungkinan model Anda. Mengingat bahwa kami tidak yakin tentang mekanisme pembuatan data yang mendasarinya, kami mengamati data dan memperbarui keyakinan kami.

Saya tidak yakin apakah ini bermanfaat, tapi mudah-mudahan itu tidak membingungkan; Anda jelas harus bekerja dengan ekspresi yang paling sesuai untuk skenario Anda. Mungkin orang lain bisa masuk dengan alasan lebih baik.

ars
sumber
Anda dapat melangkah lebih jauh dan mengambil log. Kemudian Anda memiliki rasio log-posterior = rasio log-prior + rasio log-likelihood
probabilityislogic
6

P(SEBUAH)

P(SEBUAH)P(SEBUAH|B)BP(SEBUAH|B)P(SEBUAH|¬B)B dan ¬B. Jika kita mempartisi A menjadi dua peristiwa yang terpisah, kita dapat mengatakan lebih baik tentang probabilitas kondisionalP(SEBUAH|B) dan P(SEBUAH|¬B). Untuk mendapatkan probabilitas total, kita juga perlu mempertimbangkan probabilitas bersyarat untuk kejadian yang kita kondisikan yaituP(B) dan P(¬B). Karena itu ungkapan terakhir

P(SEBUAH)=P(SEBUAH|B)P(B)+P(SEBUAH|¬B)P(¬B)
suncoolsu
sumber