Dari menelusuri slide yang Anda bagikan, menurut saya idenya adalah menjelaskan bagaimana estimasi MAP dapat digunakan untuk memperkirakan berbagai properti posterior, seperti mean, mode, dan median. Saya akan mencoba menjelaskan hal ini dalam konteks Pengukur Umum Bayesian seperti yang disajikan dalam buku Stephen M. Kay, Fundamentals of Statistical Signal Processing .
Mari kita mulai dengan mempertimbangkan tiga jenis Risiko (yaitu, fungsi biaya) yang terkait dengan memperkirakan parameter :θ
- C( e ) = e2
- C( e ) = | e |
- saya f- δ< e < δ, C( e ) = 0 ; selain ituC( e ) = 1
di mana, , di mana adalah nilai estimasi dan adalah parameter sebenarnya. Dalam estimasi Bayesian, tujuannya adalah untuk meminimalkan risiko yang diharapkan, yaitu:e = θ - θ^θ θθ^θ
E[ C( e ) ] = ∫X∫θC( e ) p ( X, θ ) dθ dX= ∫X[ ∫θC( e ) p ( θ | X) dθ ] p ( X) dX
karena kita hanya peduli dengan , kita akan fokus pada integral internal .θminθ∫θC( e ) p ( θ | X) dθ
Sekarang, tergantung pada kita pilih, estimator akan memberi kita properti berbeda dari posterior. Sebagai contoh, jika kita memilih kasus pertama, , meminimalkan untuk , adalah mean. Karena pertanyaan Anda berkaitan dengan fungsi indikator , saya akan membahas risiko ketiga yang disebutkan di atas (yang jika Anda memikirkannya untuk sama dengan untuk menggunakan indikator).C( e )C( e ) = e2θ∫θC( e ) p ( θ | X) dθsaya[ θ^≠ θ ]δ→ 0
Untuk Kasus 3 di atas:
∫θC( e ) p ( θ | X) dθ = ∫θ^- δ- ∞p ( θ | X) dθ + ∫∞θ^+ δp ( θ | X) dθ = 1 - ∫θ^+ δθ^+ δp ( θ | X) dθ
yang untuk diminimalkan ketika sesuai dengan mode posterior.δ→ 0θθ^
Dalam kasus spesifik ruang parameter adalah terbatas atau tak terhingga tak terbatas kerugian posterior yang terkait dengan kehilangan indikator sama dengan probabilitas salah dan diminimalkan ketika probabilitas posterior benar dimaksimalkan. Ini berarti bahwa adalah mode distribusi posterior atau MAP.q = { θ 1 , θ 2 , ... } P ( θ ≠ θ | x ) P ( θ = θ | x ) θΘ
Namun, asosiasi MAP dan kehilangan ini adalah "teorema rakyat" karena tidak benar di sebagian besar pengaturan, yaitu, tidak berlaku untuk ruang parameter kontinu di mana untuk semua 's dan lebih jauh bertentangan dengan hasil Druihlet dan Marin (BA, 2007), yang menunjukkan bahwa PETA pada akhirnya tergantung pada pilihan ukuran yang mendominasi. (Meskipun tindakan Lebesgue secara implisit dipilih sebagai default.)P ( θ = θ | x ) = 0 θ0 - 1 P ( θ^= θ | x ) = 0 θ^
Misalnya, Evans dan Jang memposting makalah arXiv pada tahun 2011 di mana mereka membahas hubungan antara MAP, penaksir kejutan relatif (atau kemungkinan profil maksimum), dan fungsi kerugian. Inti dari masalah ini adalah bahwa baik penduga MAP, maupun MLE benar-benar dibenarkan oleh pendekatan teoritik keputusan, setidaknya dalam ruang parameter kontinu. Dan bahwa ukuran yang mendominasi [sewenang-wenang] yang dipilih pada ruang parameter berdampak pada nilai MAP, seperti yang ditunjukkan oleh Druihlet dan Marin pada 2007. Mereka mulai dalam kasus terbatas dengan fungsi kehilangan
Robert Bassett dan Julio Deride memberikan makalah pada tahun 2016 membahas posisi MAP dalam teori keputusan Bayesian.
Para penulis menyebutkan buku saya The Bayesian Choice yang menyatakan properti ini tanpa tindakan pencegahan lebih lanjut dan saya sepenuhnya setuju untuk ceroboh dalam hal ini! Kesulitan berdiri dengan batas maximiser yang belum tentu maksimalizer. Makalah ini menyertakan contoh untuk efek ini, dengan yang sebelumnya seperti di atas, terkait dengan distribusi sampling yang tidak bergantung pada parameter. Kondisi yang cukup yang diusulkan di sini adalah bahwa kepadatan posterior hampir pasti tepat atau quasiconcave.
Lihat juga karakterisasi alternatif penduga MAP oleh Burger dan Lucka sebagai penduga Bayes yang tepat di bawah jenis fungsi kerugian lainnya , meskipun yang agak buatan. Penulis makalah arXived ini mulai dengan jarak berdasarkan sebelumnya; disebut jarak Bregman, yang mungkin jarak kuadrat atau entropi tergantung pada sebelumnya. Menentukan fungsi kehilangan yang merupakan campuran dari jarak Bregman ini dan jarak kuadrat
sumber
Saya akan memberikan ringkasan teks yang disebutkan tentang masalah ini di Bab 5, Bayesian Statistics, Machine Learning: Perspektif probabilistik - oleh Murphy .
Katakanlah kami mengamati beberapa data , dan kami ingin mengomentari distribusi posterior parameter . Sekarang, estimasi titik mode distribusi posterior ini, yang secara luas dikenal sebagai MAP, memiliki kelemahan tertentu.p ( θ | X )X p ( θ | X)
Tidak seperti rata-rata atau median, ini adalah poin 'tidak umum', dalam arti bahwa itu tidak mempertimbangkan semua poin lain saat sedang diperkirakan. Dalam hal memperkirakan mean / median, kami mempertimbangkan semua poin lainnya.
Jadi, seperti yang diharapkan, dalam distribusi posterior yang sangat miring, MAP (dan, dengan ekstensi, MLE) tidak benar-benar mewakili yang sebenarnya posterior.
Jadi, bagaimana kita merangkum posterior menggunakan estimasi titik seperti Mean / Median / Mode?
Di sinilah orang menggunakan teori keputusan - pada dasarnya fungsi Rugi yang merupakan kerugian yang ditimbulkan seseorang jika kebenarannya adalah dan adalah perkiraan kami. Kita dapat memilih berbagai fungsi Kerugian dan tujuan kita di sini adalah untuk meminimalkan nilai fungsi Kerugian yang diharapkan.θ θL ( θ , θ^) θ θ^
Jika fungsi Kehilangan ditetapkan sebagai , fungsi Indikator untuk semua saat ketika kita TIDAK BISA memperkirakan kebenaran, kemudian meminimalkan nilai yang diharapkan dari fungsi Rugi wrt sama dengan Memaksimalkan fungsi ini wrt . Dari sini, intuitif untuk menebak bahwa mode Posterior meminimalkan nilai yang diharapkan dari fungsi kerugian. Detail perhitungan ini dapat dilihat pada jawaban di atas .I ( θ ≠ θ | x ) θ I ( θ = θ | x ) θL ( θ , θ^) Saya ( θ^≠ θ | x ) θ I(θ^=θ|x) θ
sumber