Apakah properti invarian dari estimator ML tidak masuk akal dari perspektif Bayesian?

Casella dan Berger menyatakan properti invarian penaksir ML sebagai berikut:

Namun, bagi saya tampaknya mereka mendefinisikan "kemungkinan" dari dalam cara yang sepenuhnya ad hoc dan tidak masuk akal: $\eta$

Jika saya menerapkan aturan dasar teori probabilitas pada kasus sederhana apakah , saya malah mendapatkan yang berikut: Sekarang menerapkan teorema Bayes, dan kemudian fakta bahwa dan saling eksklusif sehingga kita dapat menerapkan aturan penjumlahan: $\eta=\tau(\theta)=\theta^2$

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$

A

$A$

B

$B$

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

Sekarang menerapkan teorema Bayes ke istilah dalam pembilang lagi:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

Jika kita ingin memaksimalkan wrt ini ke untuk mendapatkan estimasi kemungkinan maksimum dari , kita harus memaksimalkan: $\eta$ $\eta$

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

Apakah Bayes menyerang lagi? Apakah Casella & Berger salah? Atau saya salah?

self-study bayesian maximum-likelihood frequentist invariance pengguna56834
sumber

Kemungkinan duplikat properti Invariance dari penaksir kemungkinan maksimum?

Sextus Empiricus

Bagian formal setelah "Jika saya menerapkan aturan dasar teori probabilitas pada kasus sederhana, apakah " $\eta=\tau(\theta)=\theta^2$ tidak mengubah pertanyaan. Masalah ini sepenuhnya tercakup dalam jawaban yang sangat baik dari Samuel Benidt. Nilai kemungkinan (dan sebagai konsekuensinya maksimum) tidak berubah karena pemetaan. Ya, Anda perlu berhati-hati jika pemetaannya tidak satu-ke-satu. Tapi itu adalah masalah yang sama sekali berbeda dari perubahan yang terjadi karena distribusi probabilitas ketika Anda menerapkan transformasi.

Sextus Empiricus

Saya mengerti frustrasi Anda, Programmer2134 (& @MartijnWeterings). Namun, harap berhati-hati dengan nada Anda dalam komentar Anda. Percakapan yang produktif hanya dimungkinkan ketika kebijakan kami yang baik diikuti. Jika Anda tidak tertarik mengejar percakapan yang produktif, Anda perlu memposting pertanyaan ini di tempat lain.

gung - Reinstate Monica

@ung, Anda sepenuhnya benar. Dan saya menyesal bereaksi dengan nada itu. Saya akan berhenti melakukannya mulai sekarang. Maafatasini. Mengenai pembicaraan, saya tertarik untuk mengejar yang produktif, tetapi merasa bahwa reaksi orang dalam beberapa pertanyaan yang saya ajukan sebagian besar kontraproduktif. Namun demikian, lain kali, saya akan merespons secara berbeda.

user56834

Terima kasih. Yang terbaik adalah menganggap orang merespons dengan itikad baik. Ada (relatif sedikit, IMHO) kesempatan di mana orang-orang di sini tidak, tetapi bahkan kemudian, kadang-kadang mereka dapat dibujuk untuk datang.

gung - Reinstate Monica

Seperti yang dikatakan Xi'an, pertanyaannya masih bisa diperdebatkan, tetapi saya pikir banyak orang yang tetap mempertimbangkan perkiraan kemungkinan maksimum dari perspektif Bayesian karena pernyataan yang muncul dalam beberapa literatur dan di internet: " kemungkinan maksimum Perkiraan adalah kasus tertentu dari maksimum Bayesian perkiraan posteriori, ketika distribusi sebelumnya seragam ".

Saya akan mengatakan bahwa dari perspektif Bayesian yang kemungkinan maksimum estimator dan properti invarian yang dapat masuk akal, tetapi peran dan makna dari estimator dalam teori Bayesian sangat berbeda dari teori frequentist. Dan estimator khusus ini biasanya tidak terlalu masuk akal dari perspektif Bayesian. Inilah sebabnya. Untuk kesederhanaan, izinkan saya mempertimbangkan parameter satu dimensi dan transformasi satu-satu.

Pertama dari dua pernyataan:

Dapat bermanfaat untuk mempertimbangkan parameter sebagai kuantitas yang hidup pada manifold generik, yang dengannya kita dapat memilih sistem koordinat atau unit pengukuran yang berbeda. Dari sudut pandang ini, reparameterisasi hanyalah perubahan koordinat. Misalnya, suhu titik rangkap air sama dengan apakah kita menyatakannya sebagai (K), (° C), (° F), atau (a skala logaritmik). Kesimpulan dan keputusan kami harus tidak berubah sehubungan dengan mengoordinasikan perubahan. Beberapa sistem koordinat mungkin lebih alami daripada yang lain, tentu saja. $T=273.16$ $t=0.01$ $\theta=32.01$ $\eta=5.61$
$\mathrm{p}(x)\,\mathrm{d}x$
$x$

$\Delta x$ $\mathrm{p}(x)\,\Delta x$ $x$
$\mathrm{d}x$

$\mathrm{p}(x_1) > \mathrm{p}(x_2)$ $x_1$ $x_2$ $x$ $x_1$ $x_2$

$x$ $\tilde{x}$ $D$

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$

Estimator ini memilih titik pada manifold parameter dan karenanya tidak bergantung pada sistem koordinat apa pun. Dinyatakan sebaliknya: Setiap titik pada manifold parameter dikaitkan dengan angka: probabilitas untuk data ; kami memilih titik yang memiliki angka terkait tertinggi. Pilihan ini tidak memerlukan sistem koordinat atau ukuran dasar. Karena alasan inilah penaksir ini invarian parameterisasi, dan properti ini memberi tahu kita bahwa itu bukan probabilitas - seperti yang diinginkan. Keanehan ini tetap ada jika kita mempertimbangkan transformasi parameter yang lebih kompleks, dan kemungkinan profil yang disebutkan oleh Xi'an sangat masuk akal dari perspektif ini. $D$

Mari kita melihat titik Bayesian pandang
Dari sudut pandang ini selalu masuk akal untuk berbicara tentang probabilitas untuk parameter terus menerus, jika kita tidak yakin tentang hal itu, tergantung pada data dan bukti lain . Kami menulis ini sebagai Seperti yang disebutkan di awal, probabilitas ini mengacu pada interval pada manifold parameter, bukan ke titik tunggal. $D$

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$

Idealnya kita harus melaporkan ketidakpastian kita dengan menentukan distribusi probabilitas penuh untuk parameter. Jadi pengertian estimator adalah sekunder dari perspektif Bayesian. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

Gagasan ini muncul ketika kita harus memilih satu titik pada manifold parameter untuk beberapa tujuan atau alasan tertentu, meskipun titik sebenarnya tidak diketahui. Pilihan ini adalah ranah teori keputusan [1], dan nilai yang dipilih adalah definisi yang tepat dari "penaksir" dalam teori Bayesian. Teori keputusan mengatakan bahwa kita harus terlebih dahulu memperkenalkan fungsi utilitas yang memberi tahu kita berapa banyak yang kita peroleh dengan memilih titik pada manifold parameter, ketika titik sebenarnya adalah (sebagai alternatif, kita bisa secara pesimis berbicara tentang fungsi kerugian). Fungsi ini akan memiliki ekspresi yang berbeda di setiap sistem koordinat, misalnya , dan $(P_0,P)\mapsto G(P_0; P)$ $P_0$ $P$ $(x_0,x)\mapsto G_x(x_0; x)$ $(y_0,y)\mapsto G_y(y_0; y)$ ; jika transformasi koordinat adalah , dua ekspresi terkait oleh [2]. $y=f(x)$ $G_x(x_0;x) = G_y[f(x_0); f(x)]$

Izinkan saya menekankan bahwa ketika kita berbicara, katakanlah, tentang fungsi utilitas kuadratik, kita secara implisit memilih sistem koordinat tertentu, biasanya yang alami untuk parameternya. Dalam sistem koordinat lain, ekspresi untuk fungsi utilitas umumnya tidak kuadratik, tetapi masih fungsi utilitas yang sama pada manifold parameter.

Estimator terkait dengan fungsi utilitas adalah titik yang memaksimalkan utilitas yang diharapkan diberikan data kami . Dalam sistem koordinat , koordinasinya adalah Definisi ini tidak tergantung pada perubahan koordinat: dalam koordinat baru koordinat estimator adalah . Ini mengikuti dari independensi koordinat dan integral. $\hat{P}$ $G$ $D$ $x$

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$

y = f (x)

$y=f(x)$

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$

G

$G$

Anda melihat bahwa jenis invarian ini adalah properti bawaan dari penaksir Bayesian.

Sekarang kita dapat bertanya: apakah ada fungsi utilitas yang mengarah ke penduga yang sama dengan kemungkinan maksimum? Karena penaksir kemungkinan maksimum adalah invarian, fungsi tersebut mungkin ada. Dari sudut pandang ini, kemungkinan maksimum akan menjadi tidak masuk akal dari sudut pandang Bayesian jika tidak invarian!

Fungsi utilitas yang dalam sistem koordinat sama dengan delta Dirac, , tampaknya melakukan tugasnya [3]. Persamaan menghasilkan , dan jika sebelumnya dalam seragam dalam koordinat , kami dapatkan estimasi kemungkinan maksimum . Atau kita dapat mempertimbangkan urutan fungsi utilitas dengan dukungan yang semakin kecil, misalnya jika dan tempat lain, untuk [4]. $x$ $G_x(x_0; x) = \delta(x_0-x)$ $\eqref{UF}$ $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ $\eqref{PD}$ $x$ $\eqref{ML}$ $G_x(x_0; x) = 1$ $\lvert x_0-x \rvert<\epsilon$ $G_x(x_0; x) = 0$ $\epsilon\to 0$

Jadi, ya, penaksir kemungkinan-maksimum dan invariannya bisa masuk akal dari perspektif Bayesian, jika kita secara matematis murah hati dan menerima fungsi-fungsi umum. Tetapi makna, peran, dan penggunaan estimator dalam perspektif Bayesian sangat berbeda dari yang ada dalam perspektif frequentist.

Izinkan saya juga menambahkan bahwa tampaknya ada keberatan dalam literatur tentang apakah fungsi utilitas yang didefinisikan di atas masuk akal secara matematis [5]. Bagaimanapun, kegunaan fungsi utilitas semacam itu agak terbatas: seperti yang ditunjukkan oleh Jaynes, itu berarti bahwa "kita hanya peduli pada peluang untuk menjadi benar; dan, jika kita salah, kita tidak peduli. betapa salahnya kita ".

Sekarang pertimbangkan pernyataan "kemungkinan-maksimum adalah kasus khusus maksimum-a-posteriori dengan seragam sebelumnya". Penting untuk mencatat apa yang terjadi di bawah perubahan umum koordinat : 1. fungsi utilitas di atas mengasumsikan ekspresi yang berbeda, ; 2. kepadatan sebelumnya dalam koordinat tidak seragam , karena faktor penentu Jacobian; 3. penduga tidak maksimum dari kepadatan posterior dalam koordinat , karena delta Dirac telah memperoleh faktor multiplikasi tambahan; $y=f(x)$
$G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$
$y$
$y$
4. estimator masih diberikan oleh kemungkinan maksimum dalam koordinat , yang baru . Perubahan ini bergabung sehingga titik penduga masih sama pada manifold parameter. $y$

Dengan demikian, pernyataan di atas secara implisit mengasumsikan sistem koordinat khusus. Pernyataan tentatif dan lebih eksplisit adalah: "estimator maksimum-kemungkinan secara numerik sama dengan estimator Bayesian yang dalam beberapa sistem koordinat memiliki fungsi utilitas delta dan prior yang seragam".

Komentar akhir
Diskusi di atas bersifat informal, tetapi dapat dibuat tepat menggunakan teori ukuran dan integrasi Stieltjes.

Dalam literatur Bayesian kita juga dapat menemukan gagasan penduga yang lebih informal: ini adalah angka yang entah bagaimana "merangkum" distribusi probabilitas, terutama ketika tidak nyaman atau tidak mungkin untuk menentukan kepadatan penuhnya ; lihat misalnya Murphy [6] atau MacKay [7]. Gagasan ini biasanya terlepas dari teori keputusan, dan karenanya dapat bergantung pada koordinat atau secara diam-diam mengasumsikan sistem koordinat tertentu. Tetapi dalam definisi teoritik keputusan tentang estimator, sesuatu yang bukan invarian tidak dapat menjadi estimator. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

[1] Misalnya, H. Raiffa, R. Schlaifer: Teori Keputusan Statistik Terapan (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analisis, Manifold dan Fisika. Bagian I: Dasar-dasar (Elsevier 1996), atau buku bagus lainnya tentang geometri diferensial.
[3] ET Jaynes: Teori Probabilitas: Logika Ilmu Pengetahuan (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayesian Theory (Wiley 2000), §5.1.5.
[5] IH Jermyn: Estimasi Bayesian invarian pada manifold https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Penaksir maksimum a posteriori sebagai batas penaksir Bayes https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Pembelajaran Mesin: Perspektif Probabilistik (MIT Press 2012), terutama bab. 5.
[7] DJC MacKay: Teori Informasi, Inferensi, dan Algoritma Pembelajaran (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

pglpm
sumber

Ada beberapa cara untuk mendefinisikan penaksir Bayes yang invarian, dalam arti di atas, dengan menciptakan fungsi kerugian fungsional, seperti misalnya perbedaan Kullback-Leibler antara dua kepadatan. Saya menyebut kerugian ini kerugian intrinsik dalam makalah 1996 .

Xi'an

Apakah properti invarian dari estimator ML tidak masuk akal dari perspektif Bayesian?

Jawaban: