Apa perbedaan dalam estimasi Bayesian dan estimasi kemungkinan maksimum?

50

Tolong jelaskan kepada saya perbedaan dalam estimasi Bayesian dan estimasi kemungkinan maksimum?

triomphe
sumber
7
Tergantung pada jenis perkiraan Bayesian. PETA? Berarti posterior? Hasil meminimalkan risiko Bayes untuk beberapa fungsi kerugian? Masing-masing di atas? Sesuatu yang lain
Glen_b
2
Saya sudah menjawab pertanyaan ini, atau analog, di sini. stats.stackexchange.com/questions/73439/... Masalah apa yang Anda miliki pahami keduanya? Lebih detail akan membantu kami memberikan jawaban yang lebih baik.
Pasang kembali Monica
1
Dari manual referensi STAN: "Jika prior adalah seragam, mode posterior sesuai dengan estimasi kemungkinan maksimum (MLE) dari parameter. Jika prior tidak seragam, mode posterior kadang-kadang disebut estimasi maksimum a posterior (MAP). "
Neerav
@ Neerav itulah jawaban yang saya butuhkan. thx
javadba
Sebuah jawaban yang mungkin berguna untuk kasus spesifik Bayesian maksimum perkiraan posteriori diberikan di sini .
pglpm

Jawaban:

68

Ini adalah pertanyaan yang sangat luas dan jawaban saya di sini hanya mulai sedikit menggores permukaan. Saya akan menggunakan aturan Bayes untuk menjelaskan konsep.

Mari kita asumsikan bahwa satu set parameter distribusi probabilitas, , terbaik menjelaskan dataset D . Kami mungkin ingin memperkirakan parameter θ dengan bantuan Peraturan Bayes:θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

Penjelasannya mengikuti:

Perkiraan Kemungkinan Maksimum

θp(D|θ)θ^θ^

p(θ)p(D)p(θ)θ

Perkiraan Bayesian

p(θ|D)θ

θp(θ|D)θθθ

evidence

p(D)=θp(D|θ)p(θ)dθ

Ini mengarah pada konsep 'konjugasi prior' dalam estimasi Bayesian. Untuk fungsi kemungkinan yang diberikan, jika kita memiliki pilihan mengenai bagaimana kita mengekspresikan kepercayaan kita sebelumnya, kita harus menggunakan formulir yang memungkinkan kita untuk melakukan integrasi yang ditunjukkan di atas. Gagasan konjugasi prior dan bagaimana mereka secara praktis diimplementasikan dijelaskan dengan cukup baik dalam posting ini oleh COOlSerdash.

Zhubarb
sumber
1
Apakah Anda akan menguraikan lebih lanjut tentang ini? : "penyebut dalam aturan Bayes, yaitu bukti."
Daniel
1
Saya memperpanjang jawaban saya.
Zhubarb
@Berkan dalam persamaan di sini, P (D | theta) kemungkinan. Namun, fungsi kemungkinan didefinisikan sebagai P (theta | D), yaitu fungsi parameter, data yang diberikan. Saya selalu bingung tentang ini. Istilah kemungkinan merujuk pada berbagai hal di sini? Bisakah Anda menguraikan itu? Terima kasih banyak!
zesla
1
@zesla jika pemahaman saya benar, P (theta | D) bukan kemungkinan - itu posterior. Artinya, distribusi theta tergantung pada sumber data yang Anda miliki sampel. Kemungkinannya adalah seperti yang Anda katakan: P (D | theta) - distribusi data Anda sebagai parameter oleh theta, atau mungkin secara intuitif, "kemungkinan melihat apa yang Anda lihat" sebagai fungsi dari theta. Apakah itu masuk akal? Semua orang: tolong perbaiki kalau saya salah.
grisaitis
@zesla, penjelasan yang diberikan oleh grisaitis benar.
Zhubarb
13

Saya pikir Anda berbicara tentang estimasi titik seperti dalam inferensi parametrik, sehingga kita dapat mengasumsikan model probabilitas parametrik untuk mekanisme menghasilkan data tetapi nilai aktual dari parameter tidak diketahui.

Estimasi kemungkinan maksimum mengacu pada penggunaan model probabilitas untuk data dan mengoptimalkan fungsi kemungkinan gabungan dari data yang diamati melalui satu atau lebih parameter. Oleh karena itu terlihat bahwa estimasi parameter paling konsisten dengan data yang diamati relatif terhadap parameter lain di ruang parameter. Perhatikan fungsi kemungkinan seperti itu tidak selalu dipandang sebagai "kondisional" pada parameter karena parameter tersebut bukan variabel acak, oleh karena itu agak lebih canggih untuk memahami kemungkinan berbagai hasil membandingkan dua parameterisasi yang berbeda. Ternyata ini adalah pendekatan filosofis yang sehat.

Estimasi Bayesian sedikit lebih umum karena kita belum tentu memaksimalkan analog Bayesian dari kemungkinan (kerapatan posterior). Namun, tipe estimasi analog (atau estimasi mode posterior) dipandang sebagai memaksimalkan probabilitas parameter posterior yang tergantung pada data. Biasanya, perkiraan Bayes yang diperoleh sedemikian rupa berperilaku hampir persis seperti ML. Perbedaan utama adalah bahwa inferensi Bayes memungkinkan metode eksplisit untuk memasukkan informasi sebelumnya.

Juga 'Sejarah Epik Kemungkinan Maksimum membuat pembacaan yang menerangi

http://arxiv.org/pdf/0804.2996.pdf

AdamO
sumber
Apakah Anda akan menguraikan lebih lanjut tentang ini? "Namun, tipe estimasi analog (atau estimasi mode posterior) dipandang sebagai memaksimalkan probabilitas parameter posterior yang tergantung pada data."
Daniel
Mode posterior sedikit keliru karena, dengan DF kontinu, nilainya didefinisikan dengan baik. Kepadatan posterior terkait dengan kemungkinan dalam kasus frequentist, kecuali bahwa memungkinkan Anda untuk mensimulasikan parameter dari kepadatan posterior. Menariknya, orang yang paling intuitif berpikir tentang "posterior mean" sebagai estimasi titik terbaik dari parameter. Pendekatan ini sering dilakukan dan, untuk kepadatan unimodal simetris, ini menghasilkan interval kredibel yang valid yang konsisten dengan ML. Mode posterior hanyalah nilai parameter di puncak kerapatan posterior.
AdamO
Tentang "ini menghasilkan interval kredibel yang valid dan konsisten dengan ML.": Itu benar-benar tergantung pada model, bukan? Mereka mungkin konsisten atau tidak ...
Daniel
1
Masalah asumsi parametrik yang mendasari memotivasi diskusi tentang inferensi parametrik penuh vs semi-parametrik atau non -parametrik . Itu bukan masalah ML vs Bayesian dan Anda bukan orang pertama yang membuat kesalahan itu. ML adalah pendekatan yang sepenuhnya parametrik, memungkinkan Anda untuk memperkirakan beberapa hal yang tidak dapat dilakukan SP atau NP (dan seringkali lebih efisien jika bisa). Menentukan model probabilitas dengan benar dalam ML sama persis dengan memilih sebelumnya yang benar dan semua sifat ketahanan (dan masalah sensitivitas) yang menyiratkan.
AdamO
BTW, komentar Anda memicu pertanyaan ini di pikiran saya. Ada komentar tentang ini? stats.stackexchange.com/questions/74164/…
Daniel
2

Perkiraan Bayesian adalah inferensi Bayesian sedangkan MLE adalah jenis metode inferensi frequentist.

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

Alternatif MLE dalam inferensi Bayesian disebut maksimum estimasi a posteriori (MAP), dan sebenarnya MLE adalah kasus khusus MAP di mana yang sebelumnya seragam, seperti yang kita lihat di atas dan sebagaimana dinyatakan dalam Wikipedia :

Dari sudut pandang inferensi Bayesian, MLE adalah kasus khusus dari estimasi a posteriori maksimum (MAP) yang mengasumsikan distribusi parameter yang seragam sebelumnya.

Untuk detailnya, silakan merujuk ke artikel yang luar biasa ini: MLE vs MAP: hubungan antara Kemungkinan Maksimum dan Estimasi Posteriori Maksimum .

Dan satu perbedaan lagi adalah bahwa kemungkinan maksimum adalah overfitting-rawan, tetapi jika Anda mengadopsi pendekatan Bayesian masalah over-fitting dapat dihindari.

Lerner Zhang
sumber
1
Salah satu hal keren tentang Bayes adalah Anda tidak diwajibkan menghitung estimasi titik sama sekali. Seluruh kepadatan posterior bisa menjadi "perkiraan" Anda.
Frank Harrell
@ Frankharrell Yang terhormat, Prof. Harrell, bisakah Anda membantu saya mengedit jawabannya jika saya membuat beberapa kesalahan yang mengerikan di suatu tempat? Terima kasih banyak!
Lerner Zhang
1
Saya tidak bermaksud mengatakan bahwa Anda telah melakukan kesalahan.
Frank Harrell
@ lerner: Saya ingin memperingatkan agar tidak mengidentifikasi estimasi kemungkinan-maksimum sebagai kasus tertentu dari estimasi maksimum-a-posteriori (ketika yang sebelumnya konstan): lihat mengapa dalam jawaban ini .
pglpm