MAP adalah solusi untuk

10

Saya telah menemukan slide ini (slide # 16 & # 17) di salah satu kursus online. Instruktur berusaha menjelaskan bagaimana Estimasi Posterior Maksimum (MAP) sebenarnya adalah solusi , di mana adalah parameter yang benar. $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ $\theta^{*}$

Bisakah seseorang tolong jelaskan bagaimana hal ini terjadi?

Sunting: Menambahkan slide, kalau-kalau tautannya rusak.

bayesian optimization loss-functions decision-theory map-estimation musang madu
sumber

3

Dari menelusuri slide yang Anda bagikan, menurut saya idenya adalah menjelaskan bagaimana estimasi MAP dapat digunakan untuk memperkirakan berbagai properti posterior, seperti mean, mode, dan median. Saya akan mencoba menjelaskan hal ini dalam konteks Pengukur Umum Bayesian seperti yang disajikan dalam buku Stephen M. Kay, Fundamentals of Statistical Signal Processing .

Mari kita mulai dengan mempertimbangkan tiga jenis Risiko (yaitu, fungsi biaya) yang terkait dengan memperkirakan parameter : $\theta$

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ ; selain itu $C(e)=1$

di mana, , di mana adalah nilai estimasi dan adalah parameter sebenarnya. Dalam estimasi Bayesian, tujuannya adalah untuk meminimalkan risiko yang diharapkan, yaitu: $e = \theta - \hat{\theta}$ $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

karena kita hanya peduli dengan , kita akan fokus pada integral internal . $\theta$ $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$

Sekarang, tergantung pada kita pilih, estimator akan memberi kita properti berbeda dari posterior. Sebagai contoh, jika kita memilih kasus pertama, , meminimalkan untuk , adalah mean. Karena pertanyaan Anda berkaitan dengan fungsi indikator , saya akan membahas risiko ketiga yang disebutkan di atas (yang jika Anda memikirkannya untuk sama dengan untuk menggunakan indikator). $C(e)$ $C(e) = e^2$ $\theta$ $\int_\theta C(e)p(\theta|X)d\theta$ $I[\hat{\theta}\ne \theta]$ $\delta\rightarrow 0$

Untuk Kasus 3 di atas:

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

yang untuk diminimalkan ketika sesuai dengan mode posterior. $\delta \rightarrow 0$ $\hat{\theta}$

idnavid
sumber

2

Terima kasih atas penjelasannya. Juga, pembaca Masa Depan dapat membaca tentang hal yang sama dalam buku teks yang serupa: Bab 5 dari Machine_Learning Perspektif Probabilistik oleh Kevin Murphy

honeybadger

Bisakah Anda menentukan detail argumen pembatasan ini di ? Apakah maksud Anda batas prosedur ketika menjadi nol atau batas kerugian posterior?

δ

$\delta$

δ

$\delta$

Xi'an

Saya mengacu pada batas ekspektasi .

E [C (e)]

$E[C(e)]$

idnavid

10

Dalam kasus spesifik ruang parameter adalah terbatas atau tak terhingga tak terbatas kerugian posterior yang terkait dengan kehilangan indikator sama dengan probabilitas salah dan diminimalkan ketika probabilitas posterior benar dimaksimalkan. Ini berarti bahwa adalah mode distribusi posterior atau MAP. $\Theta$

Θ = {θ_{1}, θ_{2}, \dots}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

Namun, asosiasi MAP dan kehilangan ini adalah "teorema rakyat" karena tidak benar di sebagian besar pengaturan, yaitu, tidak berlaku untuk ruang parameter kontinu di mana untuk semua 's dan lebih jauh bertentangan dengan hasil Druihlet dan Marin (BA, 2007), yang menunjukkan bahwa PETA pada akhirnya tergantung pada pilihan ukuran yang mendominasi. (Meskipun tindakan Lebesgue secara implisit dipilih sebagai default.) $0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

Misalnya, Evans dan Jang memposting makalah arXiv pada tahun 2011 di mana mereka membahas hubungan antara MAP, penaksir kejutan relatif (atau kemungkinan profil maksimum), dan fungsi kerugian. Inti dari masalah ini adalah bahwa baik penduga MAP, maupun MLE benar-benar dibenarkan oleh pendekatan teoritik keputusan, setidaknya dalam ruang parameter kontinu. Dan bahwa ukuran yang mendominasi [sewenang-wenang] yang dipilih pada ruang parameter berdampak pada nilai MAP, seperti yang ditunjukkan oleh Druihlet dan Marin pada 2007. Mereka mulai dalam kasus terbatas dengan fungsi kehilangan

L (θ, d) = I {Ψ (θ) \neq d) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$ di mana mereka mempertimbangkan estimasi transformasi Ψ (θ) oleh d, berbanding terbalik dengan marginal sebelum transformasi ini. Dalam kasus khusus transformasi identitas, fungsi kerugian ini mengarah pada MLE sebagai penaksir Bayes. Dalam kasus umum, penaksir Bayes adalah penaksir kemungkinan profil maksimum (LRSE). Namun, fungsi kerugian ini tidak menggeneralisasi ke ruang parameter tak terhingga (dan jelas kontinu) dan dalam pengaturan seperti itu penulis hanya dapat memberikan LRSE sebagai batas prosedur Bayes. Fungsi kerugian yang diadopsi dalam kasus yang dapat dihitung adalah misalnya

L (θ, d) = I {Ψ (θ) \neq d} / max {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$ dengan batas menurun ke nol. Dalam kasus kontinu, indikator tidak bekerja lagi, sehingga pilihan yang dibuat oleh penulis adalah untuk menentukan ruang ise (Θ) dengan pilihan tertentu dari partisi bola yang diameternya λ menjadi nol. Dalam semangat Druihlet dan Marin, pilihan ini tergantung pada metrik (dan kondisi keteraturan lebih lanjut). Lebih lanjut, LRSE itu sendiri bergantung pada versi yang dipilih untuk kepadatan (jika tidak pada ukuran yang mendominasi), kecuali satu memaksakan di mana pun kesetaraan Bayes mana-mana, ketika dan

max_{ψ} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = f (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

f (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} f (x | θ) π (θ) d θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int f (x | θ) π (θ) d θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$ dalam semangat makalah paradoks Savage-Dickey kami .

Robert Bassett dan Julio Deride memberikan makalah pada tahun 2016 membahas posisi MAP dalam teori keputusan Bayesian.

"... kami memberikan contoh tandingan terhadap dugaan yang diterima secara umum tentang penduga MAP sebagai batas penduga bayes yang memiliki kerugian 0-1."

Para penulis menyebutkan buku saya The Bayesian Choice yang menyatakan properti ini tanpa tindakan pencegahan lebih lanjut dan saya sepenuhnya setuju untuk ceroboh dalam hal ini! Kesulitan berdiri dengan batas maximiser yang belum tentu maksimalizer. Makalah ini menyertakan contoh untuk efek ini, dengan yang sebelumnya seperti di atas, terkait dengan distribusi sampling yang tidak bergantung pada parameter. Kondisi yang cukup yang diusulkan di sini adalah bahwa kepadatan posterior hampir pasti tepat atau quasiconcave.

Lihat juga karakterisasi alternatif penduga MAP oleh Burger dan Lucka sebagai penduga Bayes yang tepat di bawah jenis fungsi kerugian lainnya , meskipun yang agak buatan. Penulis makalah arXived ini mulai dengan jarak berdasarkan sebelumnya; disebut jarak Bregman, yang mungkin jarak kuadrat atau entropi tergantung pada sebelumnya. Menentukan fungsi kehilangan yang merupakan campuran dari jarak Bregman ini dan jarak kuadrat

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ menghasilkan MAP sebagai estimator Bayes. Orang mungkin masih bertanya-tanya tentang ukuran yang mendominasi tetapi fungsi kerugian dan penduga yang dihasilkan jelas tergantung pada pilihan ukuran yang mendominasi ... (Kerugian tergantung pada sebelumnya tetapi ini bukan kelemahannya sendiri.)

Xi'an
sumber

1

Saya akan memberikan ringkasan teks yang disebutkan tentang masalah ini di Bab 5, Bayesian Statistics, Machine Learning: Perspektif probabilistik - oleh Murphy .

Katakanlah kami mengamati beberapa data , dan kami ingin mengomentari distribusi posterior parameter . Sekarang, estimasi titik mode distribusi posterior ini, yang secara luas dikenal sebagai MAP, memiliki kelemahan tertentu. $X$ $p(\theta|X)$

Tidak seperti rata-rata atau median, ini adalah poin 'tidak umum', dalam arti bahwa itu tidak mempertimbangkan semua poin lain saat sedang diperkirakan. Dalam hal memperkirakan mean / median, kami mempertimbangkan semua poin lainnya.

Jadi, seperti yang diharapkan, dalam distribusi posterior yang sangat miring, MAP (dan, dengan ekstensi, MLE) tidak benar-benar mewakili yang sebenarnya posterior.

Jadi, bagaimana kita merangkum posterior menggunakan estimasi titik seperti Mean / Median / Mode?

Di sinilah orang menggunakan teori keputusan - pada dasarnya fungsi Rugi yang merupakan kerugian yang ditimbulkan seseorang jika kebenarannya adalah dan adalah perkiraan kami. Kita dapat memilih berbagai fungsi Kerugian dan tujuan kita di sini adalah untuk meminimalkan nilai fungsi Kerugian yang diharapkan. $L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

Jika fungsi Kehilangan ditetapkan sebagai , fungsi Indikator untuk semua saat ketika kita TIDAK BISA memperkirakan kebenaran, kemudian meminimalkan nilai yang diharapkan dari fungsi Rugi wrt sama dengan Memaksimalkan fungsi ini wrt . Dari sini, intuitif untuk menebak bahwa mode Posterior meminimalkan nilai yang diharapkan dari fungsi kerugian. Detail perhitungan ini dapat dilihat pada jawaban di atas . $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$

musang madu
sumber

MAP adalah solusi untuk

Jawaban: