Casella dan Berger menyatakan properti invarian penaksir ML sebagai berikut:
Namun, bagi saya tampaknya mereka mendefinisikan "kemungkinan" dari dalam cara yang sepenuhnya ad hoc dan tidak masuk akal:
Jika saya menerapkan aturan dasar teori probabilitas pada kasus sederhana apakah , saya malah mendapatkan yang berikut: Sekarang menerapkan teorema Bayes, dan kemudian fakta bahwa dan saling eksklusif sehingga kita dapat menerapkan aturan penjumlahan: L ( η | x ) = p ( x | θ 2 = η ) = p ( x | θ = - √ABp(x|A∨B)=p(x) p ( A ∨ B | x )
Sekarang menerapkan teorema Bayes ke istilah dalam pembilang lagi:
Jika kita ingin memaksimalkan wrt ini ke untuk mendapatkan estimasi kemungkinan maksimum dari , kita harus memaksimalkan:
Apakah Bayes menyerang lagi? Apakah Casella & Berger salah? Atau saya salah?
sumber
Jawaban:
Seperti yang dikatakan Xi'an, pertanyaannya masih bisa diperdebatkan, tetapi saya pikir banyak orang yang tetap mempertimbangkan perkiraan kemungkinan maksimum dari perspektif Bayesian karena pernyataan yang muncul dalam beberapa literatur dan di internet: " kemungkinan maksimum Perkiraan adalah kasus tertentu dari maksimum Bayesian perkiraan posteriori, ketika distribusi sebelumnya seragam ".
Saya akan mengatakan bahwa dari perspektif Bayesian yang kemungkinan maksimum estimator dan properti invarian yang dapat masuk akal, tetapi peran dan makna dari estimator dalam teori Bayesian sangat berbeda dari teori frequentist. Dan estimator khusus ini biasanya tidak terlalu masuk akal dari perspektif Bayesian. Inilah sebabnya. Untuk kesederhanaan, izinkan saya mempertimbangkan parameter satu dimensi dan transformasi satu-satu.
Pertama dari dua pernyataan:
Dapat bermanfaat untuk mempertimbangkan parameter sebagai kuantitas yang hidup pada manifold generik, yang dengannya kita dapat memilih sistem koordinat atau unit pengukuran yang berbeda. Dari sudut pandang ini, reparameterisasi hanyalah perubahan koordinat. Misalnya, suhu titik rangkap air sama dengan apakah kita menyatakannya sebagai (K), (° C), (° F), atau (a skala logaritmik). Kesimpulan dan keputusan kami harus tidak berubah sehubungan dengan mengoordinasikan perubahan. Beberapa sistem koordinat mungkin lebih alami daripada yang lain, tentu saja.T=273.16 t=0.01 θ=32.01 η=5.61
Estimator ini memilih titik pada manifold parameter dan karenanya tidak bergantung pada sistem koordinat apa pun. Dinyatakan sebaliknya: Setiap titik pada manifold parameter dikaitkan dengan angka: probabilitas untuk data ; kami memilih titik yang memiliki angka terkait tertinggi. Pilihan ini tidak memerlukan sistem koordinat atau ukuran dasar. Karena alasan inilah penaksir ini invarian parameterisasi, dan properti ini memberi tahu kita bahwa itu bukan probabilitas - seperti yang diinginkan. Keanehan ini tetap ada jika kita mempertimbangkan transformasi parameter yang lebih kompleks, dan kemungkinan profil yang disebutkan oleh Xi'an sangat masuk akal dari perspektif ini.D
Mari kita melihat titik Bayesian pandangD p(x∣D)dx∝p(D∣x)p(x)dx.(**)
Dari sudut pandang ini selalu masuk akal untuk berbicara tentang probabilitas untuk parameter terus menerus, jika kita tidak yakin tentang hal itu, tergantung pada data dan bukti lain . Kami menulis ini sebagai Seperti yang disebutkan di awal, probabilitas ini mengacu pada interval pada manifold parameter, bukan ke titik tunggal.
Idealnya kita harus melaporkan ketidakpastian kita dengan menentukan distribusi probabilitas penuh untuk parameter. Jadi pengertian estimator adalah sekunder dari perspektif Bayesian.p(x∣D)dx
Gagasan ini muncul ketika kita harus memilih satu titik pada manifold parameter untuk beberapa tujuan atau alasan tertentu, meskipun titik sebenarnya tidak diketahui. Pilihan ini adalah ranah teori keputusan [1], dan nilai yang dipilih adalah definisi yang tepat dari "penaksir" dalam teori Bayesian. Teori keputusan mengatakan bahwa kita harus terlebih dahulu memperkenalkan fungsi utilitas yang memberi tahu kita berapa banyak yang kita peroleh dengan memilih titik pada manifold parameter, ketika titik sebenarnya adalah (sebagai alternatif, kita bisa secara pesimis berbicara tentang fungsi kerugian). Fungsi ini akan memiliki ekspresi yang berbeda di setiap sistem koordinat, misalnya , dan(P0,P)↦G(P0;P) P0 P (x0,x)↦Gx(x0;x) (y0,y)↦Gy(y0;y) ; jika transformasi koordinat adalah , dua ekspresi terkait oleh [2].y=f(x) Gx(x0;x)=Gy[f(x0);f(x)]
Izinkan saya menekankan bahwa ketika kita berbicara, katakanlah, tentang fungsi utilitas kuadratik, kita secara implisit memilih sistem koordinat tertentu, biasanya yang alami untuk parameternya. Dalam sistem koordinat lain, ekspresi untuk fungsi utilitas umumnya tidak kuadratik, tetapi masih fungsi utilitas yang sama pada manifold parameter.
Estimator terkait dengan fungsi utilitas adalah titik yang memaksimalkan utilitas yang diharapkan diberikan data kami . Dalam sistem koordinat , koordinasinya adalah Definisi ini tidak tergantung pada perubahan koordinat: dalam koordinat baru koordinat estimator adalah . Ini mengikuti dari independensi koordinat dan integral.P^ G D x x^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***) y=f(x) y^=f(x^) G
Anda melihat bahwa jenis invarian ini adalah properti bawaan dari penaksir Bayesian.
Sekarang kita dapat bertanya: apakah ada fungsi utilitas yang mengarah ke penduga yang sama dengan kemungkinan maksimum? Karena penaksir kemungkinan maksimum adalah invarian, fungsi tersebut mungkin ada. Dari sudut pandang ini, kemungkinan maksimum akan menjadi tidak masuk akal dari sudut pandang Bayesian jika tidak invarian!
Fungsi utilitas yang dalam sistem koordinat sama dengan delta Dirac, , tampaknya melakukan tugasnya [3]. Persamaan menghasilkan , dan jika sebelumnya dalam seragam dalam koordinat , kami dapatkan estimasi kemungkinan maksimum . Atau kita dapat mempertimbangkan urutan fungsi utilitas dengan dukungan yang semakin kecil, misalnya jika dan tempat lain, untuk [4].x Gx(x0;x)=δ(x0−x) (***) x^=argmaxxp(x∣D) (**) x (*) Gx(x0;x)=1 |x0−x|<ϵ Gx(x0;x)=0 ϵ→0
Jadi, ya, penaksir kemungkinan-maksimum dan invariannya bisa masuk akal dari perspektif Bayesian, jika kita secara matematis murah hati dan menerima fungsi-fungsi umum. Tetapi makna, peran, dan penggunaan estimator dalam perspektif Bayesian sangat berbeda dari yang ada dalam perspektif frequentist.
Izinkan saya juga menambahkan bahwa tampaknya ada keberatan dalam literatur tentang apakah fungsi utilitas yang didefinisikan di atas masuk akal secara matematis [5]. Bagaimanapun, kegunaan fungsi utilitas semacam itu agak terbatas: seperti yang ditunjukkan oleh Jaynes, itu berarti bahwa "kita hanya peduli pada peluang untuk menjadi benar; dan, jika kita salah, kita tidak peduli. betapa salahnya kita ".
Sekarang pertimbangkan pernyataan "kemungkinan-maksimum adalah kasus khusus maksimum-a-posteriori dengan seragam sebelumnya". Penting untuk mencatat apa yang terjadi di bawah perubahan umum koordinat : 1. fungsi utilitas di atas mengasumsikan ekspresi yang berbeda, ; 2. kepadatan sebelumnya dalam koordinat tidak seragam , karena faktor penentu Jacobian; 3. penduga tidak maksimum dari kepadatan posterior dalam koordinat , karena delta Dirac telah memperoleh faktor multiplikasi tambahan;y=f(x)
Gy(y0;y)=δ[f−1(y0)−f−1(y)]≡δ(y0−y)|f′[f−1(y0)]|
y
y y
4. estimator masih diberikan oleh kemungkinan maksimum dalam koordinat , yang baru . Perubahan ini bergabung sehingga titik penduga masih sama pada manifold parameter.
Dengan demikian, pernyataan di atas secara implisit mengasumsikan sistem koordinat khusus. Pernyataan tentatif dan lebih eksplisit adalah: "estimator maksimum-kemungkinan secara numerik sama dengan estimator Bayesian yang dalam beberapa sistem koordinat memiliki fungsi utilitas delta dan prior yang seragam".
Komentar akhir
Diskusi di atas bersifat informal, tetapi dapat dibuat tepat menggunakan teori ukuran dan integrasi Stieltjes.
Dalam literatur Bayesian kita juga dapat menemukan gagasan penduga yang lebih informal: ini adalah angka yang entah bagaimana "merangkum" distribusi probabilitas, terutama ketika tidak nyaman atau tidak mungkin untuk menentukan kepadatan penuhnya ; lihat misalnya Murphy [6] atau MacKay [7]. Gagasan ini biasanya terlepas dari teori keputusan, dan karenanya dapat bergantung pada koordinat atau secara diam-diam mengasumsikan sistem koordinat tertentu. Tetapi dalam definisi teoritik keputusan tentang estimator, sesuatu yang bukan invarian tidak dapat menjadi estimator.p(x∣D)dx
[1] Misalnya, H. Raiffa, R. Schlaifer: Teori Keputusan Statistik Terapan (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analisis, Manifold dan Fisika. Bagian I: Dasar-dasar (Elsevier 1996), atau buku bagus lainnya tentang geometri diferensial.
[3] ET Jaynes: Teori Probabilitas: Logika Ilmu Pengetahuan (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayesian Theory (Wiley 2000), §5.1.5.
[5] IH Jermyn: Estimasi Bayesian invarian pada manifold https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Penaksir maksimum a posteriori sebagai batas penaksir Bayes https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Pembelajaran Mesin: Perspektif Probabilistik (MIT Press 2012), terutama bab. 5.
[7] DJC MacKay: Teori Informasi, Inferensi, dan Algoritma Pembelajaran (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .
sumber
Dari sudut pandang non-Bayesian, tidak ada definisi jumlah seperti karena kemudian parameter tetap dan notasi pengkondisian tidak tidak masuk akal. Alternatif yang Anda usulkan bergantung pada distribusi sebelumnya, yang justru ingin dihindari oleh pendekatan seperti yang diusulkan oleh Casella dan Berger . Anda dapat memeriksa kemungkinan profil kata kunci untuk lebih banyak entri. (Dan tidak ada arti atau ada.)θ
right
wrong
sumber