Mengapa tidak menggunakan teorema Bayes dalam bentuk ?

10

Ada banyak pertanyaan (seperti ini ) tentang beberapa ambiguitas dengan formula Bayes dalam kasus berkelanjutan.

p(θ|x)=p(x|θ)p(θ)p(x)

Sering kali, kebingungan timbul dari kenyataan bahwa definisi distribusi bersyarat dijelaskan sebagai menjadi fungsi diberikan tetap .f(variable|parameter)fvSebuahrsayaSebuahbleparameter

Bersamaan dengan itu, ada prinsip kesetaraan yang menyatakan bahwa kemungkinan dapat ditulis sebagai:

L(θ|x)=p(x|θ)

Jadi mengapa tidak menggunakan aturan Bayes untuk distribusi dalam bentuk berikut:

p(θ|x)=L(θ|x)p(θ)p(x)

untuk menekankan bahwa kita berhadapan dengan fungsi diberikan data yang diamati , dan bahwa masing-masing istilah kemungkinan (setidaknya, dimulai dengan L )?θxL

Apakah ini masalah tradisi, atau ada sesuatu yang lebih mendasar dalam praktik ini?

iot
sumber
Apa arti dari ? Saya tahu ini sebagai suatu kemungkinan. Tetapi dalam kasus berkelanjutan, saya tidak melihat probabilitas apa yang Anda bicarakan. p()
Sextus Empiricus
@ MartijnWeterings, fungsi harus menjadi distribusi probabilitas yang valid dalam semua kasus kecuali ketika "kemungkinan" dari bentuk . Apakah saya melewatkan sesuatu? p()p(x|θ)
iot
Apa yang Anda maksud dengan distribusi probabilitas? Kumulatif, kepadatan, dll?
Sextus Empiricus
1
Mungkin membantu untuk mundur dan menyadari bahwa tidak ada "variabel" dalam teorema Bayes, setidaknya saat Anda menggunakan istilah tersebut. Ada titik data dan ada parameter model. Dalam pengertian ini, . Anda memanggil makhluk yang mirip posterior yang kemudian Anda sebut kemungkinan. Tapi ternyata tidak. Jadi saya tidak yakin ke mana Anda akan pergi dengan ini. Dan secara umum yang tidak masuk akal dalam kasus di mana dan dan bahkan tidak memiliki dukungan yang sama. P(model|data)P(data)=P(data,model)=P(data|model)P(model)P(model|data)p(x|y)=p(y|x)p(x)=p(y)x=datay=model. xy
Peter Leopold

Jawaban:

7

Ada dua hasil dasar dari probabilitas yang bekerja dalam teorema Bayes. Salah satunya adalah cara menulis ulang fungsi kepadatan probabilitas gabungan :

p(x,y)=p(x|y)p(y).

Yang lain adalah rumus untuk menghitung fungsi kepadatan probabilitas bersyarat :

p(y|x)=p(x,y)p(x).

Teorema Bayes 'hanya menjahit dua hal ini bersama-sama:

p(θ|x)=p(x,θ)p(x)=p(x|θ)p(θ)p(x)

Begitu juga datanya x dan parameternya θ adalah variabel acak dengan pdf bersama

p(x,θ)=p(x|θ)p(θ),
dan itulah yang muncul dalam pembilang dalam teorema Bayes. Jadi, menulis kemungkinan sebagai kepadatan probabilitas bersyarat alih-alih sebagai fungsiL parameter menjelaskan probabilitas dasar yang dimainkan.

Itu semua berkata, Anda akan melihat orang menggunakan, seperti di sini atau di sini .

jcz
sumber
@ iot Dalam statistik klasik, Anda dapat memperkirakan parameter dengan menemukanθ yang memaksimalkan p(x|θ) sebagai fungsi dari θ. Jadi orang akan menulisL(θ)=p(x|θ) dan coba hitung θ^MLE=argmaxL(θ). Dalam hal ini, Anda tidak pedulip(x|θ)"Status" sebagai pdf bersyarat berakhir x. Anda peduli tentang statusnya sebagai fungsi bernilai nyata dariθ yang ingin Anda maksimalkan sehubungan dengan θ. BegituL()Notasi gaya adalah peninggalan dari pengaturan itu.
jcz
10

Fungsi kemungkinan hanya sebanding dengan kepadatan sampel, dalam arti yang Anda milikiLx(θ)=k(x)p(x|θ) untuk beberapa konstan k(x)>0(meskipun Anda harus mencatat bahwa kemungkinannya adalah fungsi dari parameter, bukan data). Jika Anda ingin menggunakan ini dalam ekspresi Anda untuk teorema Bayes maka Anda harus menyertakan konstanta penskalaan yang sama dalam penyebut:

p(θ|x)=Lx(θ)p(θ)k(x)p(x)=Lx(θ)p(θ)Lx(θ)p(θ) dθLx(θ)p(θ).

Jika Anda menggunakan rumus yang Anda usulkan, maka Anda akan berakhir dengan kernel dengan kepadatan posterior, tetapi mungkin tidak berintegrasi dengan satu (dan dengan demikian umumnya bukan kepadatan).

Ben - Pasang kembali Monica
sumber
2
Saya suka jawaban Anda, tetapi dalam formula asli p(x|θ) dengan xdiperbaiki (konteks Bayesian) tidak juga distribusi probabilitas yang valid , danp(x) juga merupakan faktor penskalaan yang tidak sama dengan 1. Jadi, mengapa Anda berpikir demikian kbukankah kesatuan dalam penjelasan Anda?
garej
1
Cukup sering kami merumuskan fungsi kemungkinan dengan menghapus bagian multiplikasi yang tidak bergantung pada parameter yang diminati. Kami melakukan ini untuk membuat analisis lebih sederhana, dengan menghindari perlunya melacak konstanta integrasi. Misalnya, jikap(x|θ)=Bin(x|n,θ) then we would take Lx(θ)=θx(1θ)nx, removing the binomial coefficient in the binomial distribution. In this case we have k=(nx), which is not generally equal to one.
Ben - Reinstate Monica
1
so your point is that there is a convention that likelihood is usually free from unnecessary constants and so iot's version could be somewhat misleading for statisticians?
garej
While that is indeed a conventional way to set the likelihood, the point here is that the likelihood function is generally defined only up to proportionality, so there is no guarantee that k=1 in the above working.
Ben - Reinstate Monica
It is the first time I read that the likelihood is proportional to a density. To me, this is only a stretch and possibly wrong. The problem lies in the overlapping terminology. We should not call a density a likelihood, in the Bayes' rule, but we keep on doing that.
nbro