Estimasi MLE vs MAP, kapan harus menggunakan yang mana?

14

MLE = Estimasi Kemungkinan Maksimum

MAP = Maksimum a posteriori

MLE bersifat intuitif / naif karena MLE hanya dimulai dengan probabilitas pengamatan yang diberikan parameter (yaitu fungsi kemungkinan) dan mencoba menemukan parameter terbaik sesuai dengan pengamatan . Tapi itu tidak mempertimbangkan pengetahuan sebelumnya.

MAP tampaknya lebih masuk akal karena mempertimbangkan pengetahuan sebelumnya melalui aturan Bayes.

Ini pertanyaan terkait, tetapi jawabannya tidak menyeluruh. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Jadi, saya pikir PETA jauh lebih baik. Apakah itu benar? Dan kapan saya harus menggunakan yang mana?

smwikipedia
sumber

Jawaban:

18

Jika probabilitas sebelumnya diberikan sebagai bagian dari pengaturan masalah, maka gunakan informasi itu (mis. Gunakan MAP). Jika tidak ada informasi sebelumnya yang diberikan atau diasumsikan, maka MAP tidak mungkin, dan MLE adalah pendekatan yang masuk akal.

kacang
sumber
9
Perlu ditambahkan bahwa MAP dengan prior flat setara dengan menggunakan ML.
Tim
Juga perlu dicatat adalah bahwa jika Anda ingin sebelumnya "nyaman" secara matematis, Anda dapat menggunakan sebelumnya konjugat, jika ada untuk situasi Anda.
kacang
8

Seorang Bayesian akan setuju dengan Anda, seorang frequentist tidak akan. Ini adalah masalah pendapat, perspektif, dan filosofi. Saya pikir itu tidak banyak merugikan komunitas statistik untuk mencoba berdebat bahwa satu metode selalu lebih baik daripada yang lain. Banyak masalah akan memiliki solusi Bayesian dan sering yang mirip selama Bayesian tidak memiliki terlalu kuat dari sebelumnya.

jsk
sumber
7
Ini bukan sekadar masalah pendapat. Ada situasi yang pasti di mana satu penaksir lebih baik dari yang lain.
Tom Minka
2
@ TomMinka Saya tidak pernah mengatakan bahwa tidak ada situasi di mana satu metode lebih baik dari yang lain! Saya hanya menanggapi pernyataan umum OP seperti "PETA tampaknya lebih masuk akal." Pernyataan seperti itu setara dengan klaim bahwa metode Bayesian selalu lebih baik, yang merupakan pernyataan yang Anda dan saya tampaknya tidak sependapat.
jsk
Jok benar. Pendekatan Bayesian dan frequentist secara filosofis berbeda. Jadi seorang frequentist yang ketat akan menemukan pendekatan Bayesian tidak dapat diterima.
Michael R. Chernick
2

Dengan asumsi Anda memiliki informasi sebelumnya yang akurat, PETA lebih baik jika masalahnya memiliki fungsi nol-satu kerugian pada estimasi. Jika kerugian bukan nol-satu (dan dalam banyak masalah di dunia nyata tidak), maka dapat terjadi bahwa MLE mencapai kerugian yang diharapkan lebih rendah. Dalam kasus ini, akan lebih baik untuk tidak membatasi diri Anda pada MAP dan MLE sebagai satu-satunya pilihan, karena keduanya bersifat suboptimal.

Tom Minka
sumber
Penaksir MAP jika parameter tergantung pada parametrization, sedangkan kerugian "0-1" tidak. 0-1 dalam tanda kutip karena menurut saya semua penaksir biasanya akan memberikan kerugian 1 dengan probabilitas 1, dan setiap upaya untuk membangun perkiraan lagi memperkenalkan masalah parametrization
guy
1
Dalam pandangan saya, nol-satu kerugian memang tergantung pada parameterisasi, sehingga tidak ada inkonsistensi.
Tom Minka
0

Jawaban singkat oleh @bean menjelaskan dengan sangat baik. Namun, saya ingin menunjuk ke bagian 1.1 dari makalah Gibbs Sampling untuk yang belum tahu oleh Resnik dan Hardisty yang membawa masalah ini lebih mendalam. Saya menulis beberapa baris dari makalah ini dengan sedikit modifikasi (Jawaban ini mengulangi beberapa hal yang diketahui OP demi kelengkapan)

MLE

Secara formal MLE menghasilkan pilihan (parameter model) yang paling mungkin untuk menghasilkan data yang diamati.

PETA

Perkiraan MAP adalah pilihan yang paling mungkin diberikan data yang diamati. Berbeda dengan MLE, estimasi MAP menerapkan Aturan Bayes, sehingga estimasi kami dapat memperhitungkan pengetahuan sebelumnya tentang apa yang kami harapkan dari parameter kami dalam bentuk distribusi probabilitas sebelumnya.

Menangkap

Estimasi MLE dan MAP sama-sama memberi kami estimasi terbaik, sesuai dengan definisi masing-masing "terbaik". Tetapi perhatikan bahwa menggunakan estimasi tunggal - apakah itu MLE atau MAP - membuang informasi. Pada prinsipnya, parameter dapat memiliki nilai apa pun (dari domain); mungkin kita tidak mendapatkan perkiraan yang lebih baik jika kita memperhitungkan seluruh distribusi, bukan hanya satu nilai estimasi parameter saja? Jika kita melakukan itu, kita menggunakan semua informasi tentang parameter yang dapat kita peras dari data yang diamati, X.

Jadi dengan tangkapan ini, kita mungkin tidak ingin menggunakannya. Juga, seperti yang telah disebutkan oleh bean dan Tim, jika Anda harus menggunakan salah satunya, gunakan MAP jika Anda mendapat sebelumnya. Jika Anda tidak memiliki prior, MAP dikurangi menjadi MLE. Konjugasi prior akan membantu menyelesaikan masalah secara analitis, jika tidak gunakan Gibbs Sampling.

Gaurav Singhal
sumber
0

Seperti kita ketahui bahwa

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

Prior diperlakukan sebagai pengatur dan jika Anda mengetahui distribusi sebelumnya, misalnya Gaussin ( ) dalam regresi linier, dan lebih baik menambahkannya regularisasi untuk kinerja yang lebih baik.exp(λ2θTθ)

Lerner Zhang
sumber
-2

Jika datanya kurang dan Anda memiliki prior - "GO FOR MAP". Jika Anda memiliki banyak data, MAP akan konvergen ke MLE. Jadi dalam kasus banyak skenario data selalu lebih baik untuk melakukan MLE daripada MAP.

Heisenbug
sumber
1
Tidak sesederhana itu.
Michael R. Chernick
@MichaelChernick saya mungkin salah. Saya membaca ini di sekolah pascasarjana. Saya meminta Anda untuk memperbaiki kesalahan saya.
Heisenbug
Pendekatan frequentist dan pendekatan Bayes secara filosofis berbeda. Pendekatan frekuensi memperkirakan nilai parameter model berdasarkan pengambilan sampel berulang. Pendekatan Bayesian memperlakukan parameter sebagai variabel acak. Jadi dalam pendekatan Bayesian Anda memperoleh distribusi posterior dari parameter yang menggabungkan distribusi sebelumnya dengan data. MAP mencari puncak tertinggi dari distribusi posterior sementara MLE memperkirakan parameter dengan hanya melihat fungsi kemungkinan data.
Michael R. Chernick
@MichaelChernick - Terima kasih atas masukan Anda. Tapi jangan MAP berperilaku seperti MLE setelah kami memiliki data yang memadai. Jika kami mematahkan ekspresi MAP, kami juga mendapatkan istilah MLE. Dengan sejumlah besar data, istilah MLE dalam MAP mengambil alih yang sebelumnya.
Heisenbug
Itu tergantung pada sebelumnya dan jumlah data. Mereka dapat memberikan hasil yang serupa dalam sampel besar. Perbedaannya ada pada interpretasinya. Komentar saya dimaksudkan untuk menunjukkan bahwa itu tidak sesederhana yang Anda buat. Dengan sejumlah kecil data, ini bukan hanya masalah memilih MAP jika Anda memiliki sebelumnya. Sebelumnya yang dipilih dengan buruk dapat menyebabkan distribusi posterior yang buruk dan karenanya MAP yang buruk.
Michael R. Chernick