Mengapa Faktor Normalisasi Diperlukan dalam Teorema Bayes?

20

Teorema Bayes berlaku

P(model|data)=P(model)×P(data|model)P(data)

Ini semua baik-baik saja Tapi, saya pernah membaca di suatu tempat:

Pada dasarnya, P (data) tidak lain adalah konstanta normalisasi, yaitu konstanta yang membuat kerapatan posterior berintegrasi menjadi satu.

Kita tahu bahwa dan . 0P(model)10P(data|model)1

Karenanya, harus antara 0 dan 1 juga. Dalam kasus seperti itu, mengapa kita membutuhkan konstanta normalisasi untuk membuat posterior berintegrasi menjadi satu?P(model)×P(data|model)

Sreejith Ramakrishnan
sumber
4
Ketika Anda bekerja dengan kepadatan probabilitas , seperti yang disebutkan dalam posting ini, Anda tidak dapat lagi menyimpulkan 0 <= P(model) <= 1juga 0 <= P(data/model) <= 1, karena salah satu (atau bahkan keduanya!) Dari mereka dapat melebihi (dan bahkan menjadi tak terbatas). Lihat stats.stackexchange.com/questions/4220 . 1
whuber
1
Ini bukan kasus yang karena notasi yang tidak jelas ini mewakili kemungkinan data yang terintegrasi, bukan probabilitas.
P(data|model)1
Xi'an

Jawaban:

15

Pertama , integral dari "kemungkinan x prior" tidak perlu 1 .

Tidak benar jika:

dan 0 P ( data | model ) 10P(model)10P(data|model)1

maka integral dari produk ini sehubungan dengan model (untuk parameter model, memang) adalah 1.

Demonstrasi. Bayangkan dua kepadatan diskrit:

P(model)=[0,5,0,5] (ini disebut "prior")P(data | model)=[0,80,0,2] (ini disebut "kemungkinan")

Jika Anda mengalikan keduanya, Anda mendapatkan: yang bukan kepadatan yang valid karena tidak berintegrasi menjadi satu: 0,40 + 0,25 = 0,65

[0,40,0.25]
0.40+0.25=0.65

model_paramsP(model)P(data | model)=model_paramsP(model, data)=P(data)=0.65

(maaf tentang notasi yang buruk. Saya menulis tiga ungkapan berbeda untuk hal yang sama karena Anda mungkin melihat semuanya dalam literatur)

Kedua , "kemungkinan" dapat berupa apa saja, dan bahkan jika itu adalah kepadatan, ia dapat memiliki nilai lebih tinggi dari 1 .

Seperti yang dikatakan @whuber faktor-faktor ini tidak harus antara 0 dan 1. Mereka membutuhkan integral mereka (atau jumlah) menjadi 1.

[Ekstra] ketiga , "konjugat" adalah teman Anda untuk membantu Anda menemukan konstanta normalisasi .

P(model|data)P(data|model)P(model)
Alberto
sumber
+1. Ini adalah satu-satunya jawaban yang benar-benar menjawab pertanyaan awal mengapa konstanta normalisasi diperlukan untuk membuat posterior berintegrasi dengan satu . Apa yang Anda lakukan dengan posterior nanti (mis. MCMC inferensi atau menghitung probabilitas absolut) adalah masalah yang berbeda.
Pedro Mediano
P(model)=[0.5,0.5]σ2=1μP(μ)=[0.5,0.5]
μ
12

Jawaban singkat untuk pertanyaan Anda adalah bahwa tanpa penyebut, ekspresi di sisi kanan hanyalah kemungkinan , bukan probabilitas , yang hanya dapat berkisar dari 0 hingga 1. "Konstanta normalisasi" memungkinkan kita untuk mendapatkan probabilitas untuk terjadinya suatu peristiwa, bukan hanya kemungkinan relatif dari peristiwa itu dibandingkan dengan yang lain.

heropup
sumber
8

Anda sudah mendapatkan dua jawaban yang valid tetapi izinkan saya menambahkan dua sen saya.

Teorema Bayes sering didefinisikan sebagai:

P(model | data)P(model)×P(data | model)

karena satu-satunya alasan mengapa Anda memerlukan konstanta adalah agar ia terintegrasi ke 1 (lihat jawaban orang lain). Ini tidak diperlukan dalam kebanyakan pendekatan simulasi MCMC untuk analisis Bayesian dan karenanya konstanta dijatuhkan dari persamaan. Jadi untuk sebagian besar simulasi bahkan tidak diperlukan.

Saya suka deskripsi oleh Kruschke : anak anjing terakhir (konstan) mengantuk karena dia tidak ada hubungannya dalam formula.

masukkan deskripsi gambar di sini

Juga beberapa, seperti Andrew Gelman, menganggap konstanta sebagai "berlebihan" dan "pada dasarnya tidak berarti ketika orang menggunakan datar" (lihat diskusi di sini ).

Tim
sumber
9
+1 untuk pengenalan anak-anak anjing. "Tidak ada binatang yang terluka dalam penulisan jawaban ini" :)
alberto