Membandingkan estimasi kemungkinan maksimum (MLE) dan Teorema Bayes

12

Dalam teorema Bayesian, , dan dari buku yang saya baca, disebut sebagai kemungkinan , tapi saya menganggap itu hanya probabilitas bersyarat dari diberikan , kan? p(x|y)

p(y|x)=p(x|y)p(y)p(x)
p(x|y)yxy

The maksimum estimasi kemungkinan mencoba untuk memaksimalkan , kan? Jika demikian, saya sangat bingung, karena keduanya variabel acak, bukan? Untuk memaksimalkan hanya untuk mencari tahu yang ? Satu lagi masalah, jika 2 variabel acak ini independen, maka hanya , bukan? Maka memaksimalkan adalah memaksimalkan .x , y p ( x | y )p(x|y)x,yp(x|y) p(x|y)p(x)p(x|y)p(x)y^p(x|y)p(x)p(x|y)p(x)

Atau mungkin, adalah fungsi dari beberapa parameter , yaitu , dan MLE mencoba menemukan yang dapat memaksimalkan ? Atau bahkan bahwa sebenarnya adalah parameter dari model, bukan variabel acak, memaksimalkan kemungkinannya adalah untuk menemukan ?θ p ( x | y ; θ ) θ p ( x | y ) y yp(x|y)θp(x|y;θ)θp(x|y)yy^

MEMPERBARUI

Saya seorang pemula dalam pembelajaran mesin, dan masalah ini adalah kebingungan dari hal-hal yang saya baca dari tutorial pembelajaran mesin. Ini dia, diberikan dataset yang diamati , nilai targetnya adalah , dan saya mencoba menyesuaikan model dengan dataset ini. , jadi saya berasumsi bahwa, mengingat , memiliki bentuk distribusi bernama parameterized oleh , yaitu , dan saya menganggap ini adalah probabilitas posterior , kan?{ y 1 , y 2 , . . . , y n } x y W θ p ( y | x ; θ ){x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

Sekarang untuk memperkirakan nilai , saya menggunakan MLE. OK, inilah masalah saya, saya pikir kemungkinannya adalah , kan? Memaksimalkan kemungkinan berarti saya harus memilih hak dan ?p ( x | y ; θ ) θ yθp(x|y;θ)θy

Jika pemahaman saya tentang kemungkinan salah, tolong tunjukkan saya cara yang benar.

alpukat
sumber
Saya pikir kebingungannya adalah ini: Teorema Bayes hanyalah manipulasi dari probabilitas bersyarat seperti yang Anda berikan di awal pertanyaan Anda. The Bayesian Estimasi memanfaatkan teorema Bayes untuk membuat parameter estimasi. Hanya di yang terakhir, lakukan estimasi kemungkinan maksimum (MLE) dan parameter theta, dll.
Zhubarb
@Berkan, yah saya benar-benar mencoba mencari tahu apa kemungkinannya, mengingat . x,y,θ
alpukat
1
Saya melihat, saya akan merekomendasikan Anda untuk melihat set besar ini perkuliahan slide dalam estimasi parameter.
Zhubarb
1
Topik hebat lainnya untuk dibaca adalah Pengukur Empiris Bayes. Kami baru belajar tentang hal-hal yang ada di kelas saya :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic

Jawaban:

16

Saya pikir kesalahpahaman inti berasal dari pertanyaan yang Anda ajukan di paruh pertama pertanyaan Anda. Saya mendekati jawaban ini sebagai kontras dengan paradigma inferensi MLE dan Bayesian. Diskusi MLE yang sangat mudah didekati dapat ditemukan di Bab 1 dari Gary King, Unifying Metodologi Politik Analisis Data Bayesian Gelman dapat memberikan rincian tentang sisi Bayesian.

Dalam teorema Bayes, dan dari buku yang saya baca, disebut sebagai kemungkinan, tapi saya berasumsi itu hanya probabilitas bersyarat diberikan , kan? p(x|y)xy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

Kemungkinannya adalah probabilitas bersyarat. Untuk sebuah Bayesian, rumus ini menggambarkan distribusi parameter diberikan Data dan sebelum . Tetapi karena notasi ini tidak mencerminkan maksud Anda, untuk selanjutnya saya akan menggunakan ( , ) untuk parameter dan untuk data Anda.x p ( y ) θ y xyxp(y)θyx

Tetapi pembaruan Anda menunjukkan bahwa diamati dari beberapa distribusi . Jika kami menempatkan data dan parameter kami di tempat yang tepat dalam aturan Bayes, kami menemukan bahwa parameter tambahan ini tidak menimbulkan masalah bagi orang Bayes: p ( x | θ , y ) p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Saya percaya ungkapan ini adalah apa yang Anda cari dalam pembaruan Anda.

Estimasi kemungkinan maksimum mencoba memaksimalkan , kan?p(x,y|θ)

Iya. MLE berpendapat bahwa Yaitu, ia memperlakukan istilah sebagai tidak dikenal (dan tidak diketahui) konstan. Sebaliknya, inferensi Bayesian memperlakukan sebagai konstanta normalisasi (sehingga probabilitas dijumlahkan / diintegrasikan ke dalam kesatuan) dan sebagai informasi kunci: informasi sebelumnya. Kita dapat menganggap sebagai cara untuk menjatuhkan penalti pada prosedur optimalisasi untuk "berkeliaran terlalu jauh" dari wilayah yang kita anggap paling masuk akal.p ( θ , y )

p(x,y|θ)p(θ|x,y)
p(x)p(θ,y)p(θ,y)p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

Jika demikian, saya sangat bingung, karena adalah variabel acak, bukan? Untuk memaksimalkan hanya untuk mengetahui ?p ( x , y | θ ) θx,y,θp(x,y|θ)θ^

Dalam MLE, diasumsikan sebagai kuantitas tetap yang tidak diketahui tetapi dapat disimpulkan, bukan variabel acak. Bayesian inference memperlakukan sebagai variabel acak. Bayesian menempatkan inferensi probabilitas fungsi kepadatan di dan mendapat fungsi kepadatan probabilitas keluar , daripada titik ringkasan dari model, seperti dalam MLE. Artinya, inferensi Bayesian melihat kisaran penuh nilai parameter dan probabilitas masing-masing. MLE berpendapat bahwa adalah ringkasan yang memadai dari data yang diberikan model. q qθ^θθ^

Sycorax berkata Reinstate Monica
sumber
1
Terima kasih atas jawaban Anda, saya memperbarui posting saya, silakan lihat pembaruan saya.
alpukat
Pembaruan ini secara radikal mengubah pemahaman saya tentang pertanyaan itu. Awalnya, saya pikir Anda menganggap sebagai parameter dan sebagai data Anda. Sekarang tampaknya adalah data dan Anda tertarik untuk membangun model yang menggambarkan hubungan antara dan . Saya akan mengubah respons saya karena saya punya waktu. x ( x , y ) x yyx(x,y)xy
Sycorax berkata Reinstate Monica
+1 Ini masih merupakan jawaban yang bagus: Saya harap Anda mempertahankannya sebagian besar bahkan jika Anda memodifikasinya agar sesuai dengan perubahan dalam pertanyaan.
whuber
Saya telah memperbarui respons saya untuk mencerminkan pertanyaan Anda yang diperbarui. Saya harap detail ini membantu. Saya sangat merekomendasikan merujuk referensi yang saya sebutkan. Dan saya harap @whuber masih menyetujuinya. ;-)
Sycorax berkata Reinstate Monica
Terima kasih banyak atas pembaruannya, jadi maksud Anda walaupun saya mengambil bentuk distribusi untuk , saya harus memperlakukan x , y keduanya sebagai data yang diamati ketika saya mencoba memperkirakan θ ? p(y|x)x,yθ
alpukat
3

Biasanya adalah fungsi dari parameter y . Pertimbangkan reformulasi teorema Bayes berikut:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

Atau bahkan lebih eksplisit (berkenaan dengan gagasan kemungkinan):

p(θ|x)=L(θ;x)p(θ)p(x)

Untuk contoh nyata, pertimbangkan modelnya

X|θBinomial(θ)θBeta(α,β)
David Marx
sumber
Jadi, biasanya bukan variabel acak tetapi x , kan? yx
alpukat
Y biasanya merupakan parameter pada pdf X. Dalam pengaturan frequentist, y biasanya merupakan nilai tetap. Dalam pengaturan Bayesian, Y sendiri merupakan variabel acak (seperti dalam contoh yang saya berikan). X | Y juga bisa menjadi probabilitas bersyarat dalam arti yang Anda maksudkan, saya mencoba memberi Anda motivasi di balik mengapa kuantitas itu disebut kemungkinan.
David Marx
θX
Hanya karena sesuatu adalah variabel acak, bukan berarti itu bukan parameter. Selamat datang di dunia indah bayesian probabilitas :)
David Marx
0
  • p(x|y)

p(x|y)xy

  • p(x|y)p(x)p(x|y)p(x)

p(x|y)=p(x)p(x)yy

  • p(x|y)θp(x|y;θ)θp(x|y)y^

θyp(x|y;θ)θ

Menepuk
sumber
θxyθ
0

Dari manual referensi STAN:

Jika sebelumnya seragam, mode posterior sesuai dengan estimasi kemungkinan maksimum (MLE) dari parameter. Jika prior tidak seragam, mode posterior kadang-kadang disebut estimasi maksimal posterior (MAP).

Neerav
sumber