Dari apa yang saya baca dan dari jawaban untuk pertanyaan lain yang saya ajukan di sini, banyak yang disebut metode frequentist berhubungan secara matematis ( saya tidak peduli apakah mereka sesuai secara filosofis , saya hanya peduli apakah itu sesuai secara matematis) dengan kasus khusus yang disebut Metode Bayesian (bagi mereka yang keberatan dengan hal ini, lihat catatan di bagian bawah pertanyaan ini). Jawaban untuk pertanyaan terkait ini (bukan milik saya) mendukung kesimpulan ini:
Kebanyakan metode Frequentist memiliki padanan Bayesian yang pada dasarnya akan memberikan hasil yang sama.
Perhatikan bahwa dalam apa yang berikut, menjadi matematis yang sama berarti memberikan hasil yang sama. Jika Anda mencirikan dua metode yang dapat dibuktikan selalu memberikan hasil yang sama dengan menjadi "berbeda", itu adalah hak Anda, tetapi itu adalah penilaian filosofis, bukan yang matematis atau yang praktis.
Namun, banyak orang yang menggambarkan diri sendiri sebagai "Bayesian", tampaknya menolak menggunakan estimasi kemungkinan maksimum dalam keadaan apa pun, meskipun itu merupakan kasus khusus dari metode Bayesian (secara matematis ), karena ini adalah "metode yang sering terjadi". Rupanya Bayesian juga menggunakan jumlah distribusi yang terbatas / terbatas dibandingkan dengan frequentist, meskipun distribusi tersebut juga akan benar secara matematis dari sudut pandang Bayesian.
Pertanyaan: Kapan dan mengapa Bayesian menolak metode yang secara matematis benar dari sudut pandang Bayesian? Apakah ada pembenaran untuk ini yang tidak "filosofis"?
Latar Belakang / Konteks: Berikut ini adalah kutipan dari jawaban dan komentar untuk pertanyaan saya sebelumnya di CrossValidated :
Dasar matematika untuk debat Bayesian vs frequentist sangat sederhana. Dalam statistik Bayesian, parameter yang tidak diketahui diperlakukan sebagai variabel acak; dalam statistik frequentist diperlakukan sebagai elemen tetap ...
Dari penjelasan di atas saya akan menyimpulkan bahwa (secara matematis ) metode Bayesian lebih umum daripada yang sering, dalam arti bahwa model frequentist memenuhi semua asumsi matematika yang sama dengan yang Bayesian, tetapi tidak sebaliknya. Namun, jawaban yang sama berpendapat bahwa kesimpulan saya di atas tidak benar (penekanan pada bagian berikut adalah milik saya):
Meskipun konstanta adalah kasus khusus dari variabel acak, saya akan ragu untuk menyimpulkan bahwa Bayesianisme lebih umum. Anda tidak akan mendapatkan hasil yang sering dari yang Bayesian dengan hanya menciutkan variabel acak ke konstanta. Perbedaannya lebih mendalam ...
Pergi ke preferensi pribadi ... Saya tidak suka bahwa statistik Bayes menggunakan subset yang sangat terbatas dari distribusi yang tersedia.
Pengguna lain, dalam jawaban mereka, menyatakan sebaliknya, bahwa metode Bayesian yang lebih umum, meskipun anehnya alasan terbaik saya bisa menemukan untuk mengapa hal ini mungkin terjadi adalah dalam jawaban sebelumnya, yang diberikan oleh seseorang yang terlatih sebagai frequentist a.
Konsekuensi matematis adalah bahwa Frequentists berpikir persamaan dasar probabilitas hanya kadang-kadang berlaku, dan Bayesian berpikir mereka selalu berlaku. Jadi mereka melihat persamaan yang sama sebagai benar, tetapi berbeda pada seberapa umum mereka ... Bayesian benar - benar lebih umum daripada Frequentist. Karena bisa ada ketidakpastian tentang fakta apa pun, fakta apa pun dapat ditetapkan sebagai probabilitas. Khususnya, jika fakta yang sedang Anda kerjakan terkait dengan frekuensi dunia nyata (baik sebagai sesuatu yang Anda prediksi atau bagian dari data) maka metode Bayesian dapat mempertimbangkan dan menggunakannya seperti halnya fakta dunia nyata lainnya. Konsekuensinya masalah apa pun yang sering dirasakan oleh para ahli Bayesian pada orang Bayesian juga dapat bekerja secara alami.
Dari jawaban di atas, saya mendapat kesan bahwa setidaknya ada dua definisi berbeda dari istilah Bayesian yang umum digunakan. Yang pertama saya sebut "Bayesian secara matematis" yang mencakup semua metode statistik, karena mencakup parameter yang merupakan RV konstan dan yang tidak RV konstan. Lalu ada "secara budaya Bayesian" yang menolak beberapa metode "secara matematis Bayesian" karena metode-metode itu "kerap kali" (yaitu karena permusuhan pribadi terhadap parameter yang kadang-kadang dimodelkan sebagai konstanta atau frekuensi). Jawaban lain untuk pertanyaan tersebut di atas tampaknya juga mendukung dugaan ini:
Juga perlu dicatat bahwa ada banyak perbedaan antara model yang digunakan oleh dua kubu yang lebih terkait dengan apa yang telah dilakukan daripada apa yang bisa dilakukan (yaitu banyak model yang secara tradisional digunakan oleh satu kubu dapat dibenarkan oleh kubu lain ).
Jadi saya kira cara lain untuk mengutarakan pertanyaan saya adalah sebagai berikut: Mengapa orang Bayes kultural menyebut diri mereka orang Bayes jika mereka menolak banyak metode Bayes secara matematis? Dan mengapa mereka menolak metode Bayesian secara matematis ini? Apakah ini permusuhan pribadi bagi orang-orang yang paling sering menggunakan metode-metode khusus itu?
Sunting: Dua objek setara dalam arti matematika jika mereka memiliki sifat yang sama , terlepas dari bagaimana mereka dibangun. Sebagai contoh, saya dapat memikirkan setidaknya lima cara berbeda untuk membangun unit imajiner . Namun demikian, tidak ada setidaknya lima "aliran pemikiran" yang berbeda tentang studi angka imajiner; sebenarnya, saya percaya hanya ada satu, yaitu kelompok yang mempelajari sifat-sifat mereka. Bagi mereka yang keberatan bahwa mendapatkan estimasi titik menggunakan kemungkinan maksimum bukanlah hal yang sama dengan mendapatkan estimasi titik menggunakan maksimum a priori dan seragam sebelumnya karena perhitungan yang terlibat berbeda, saya mengakui bahwa mereka berbeda dalam arti filosofis , tetapi untuk Sejauh yang mereka selalumemberikan nilai yang sama untuk estimasi, mereka secara matematis setara, karena mereka memiliki sifat yang sama . Mungkin perbedaan filosofis relevan bagi Anda secara pribadi, tetapi tidak relevan dengan pertanyaan ini.
Catatan: Pertanyaan ini awalnya memiliki karakterisasi yang salah dari estimasi MLE dan estimasi MAP dengan seragam sebelumnya.
sumber
Jawaban:
Saya ingin mengoreksi asumsi yang salah di pos asli, kesalahan yang relatif umum. OP mengatakan:
Dan catatan di bagian bawah posting mengatakan:
Keberatan saya adalah bahwa, selain filosofi, estimasi kemungkinan maksimum (MLE) dan estimasi maksimum-a-posteriori (MAP) tidak memiliki sifat matematika yang sama.
Yang terpenting, MLE dan MAP mentransformasi secara berbeda dalam reparametriisasi ruang (nonlinier). Ini terjadi karena MLE memiliki "flat prior" di setiap parametrization, sedangkan MAP tidak (prior berubah sebagai kepadatan probabilitas , jadi ada istilah Jacobian).
Definisi objek matematika mencakup bagaimana objek berperilaku di bawah operator seperti transformasi variabel (misalnya, lihat definisi a tensor ).
Kesimpulannya, MLE dan MAP bukanlah hal yang sama, baik secara filosofis maupun matematis; ini bukan pendapat.
sumber
Secara pribadi saya seorang "pragmatis" daripada "sering" atau "Bayesian", jadi saya tidak bisa mengklaim untuk berbicara di kamp mana pun.
Yang mengatakan, saya pikir perbedaan yang Anda singgung mungkin tidak begitu banyak MLE vs MAP, tetapi antara estimasi titik vs estimasi posterior PDF . Sebagai seorang ilmuwan yang bekerja di bidang dengan data yang jarang dan ketidakpastian yang besar, saya dapat bersimpati dengan tidak ingin menaruh terlalu banyak kepercayaan pada hasil "tebakan terbaik" yang mungkin menyesatkan, sehingga terlalu percaya diri.
Perbedaan praktis terkait adalah antara metode parametrik vs non-parametrik . Jadi misalnya saya berpikir bahwa penyaringan Kalman dan Penyaringan partikel akan diterima sebagai Estimasi Bayesian Rekursif . Tetapi asumsi Gaussian tentang penyaringan Kalman (metode parametrik) dapat memberikan hasil yang sangat menyesatkan jika posterior tidak unimodal. Bagi saya contoh-contoh teknik semacam ini menyoroti di mana perbedaan bukanlah filosofis atau matematika, tetapi nyata dalam hal hasil praktis (yaitu apakah kendaraan otonom Anda akan crash?). Bagi para penggemar Bayesian yang saya kenal, sikap "melihat apa yang berhasil" ini tampaknya lebih dominan ... tidak yakin apakah ini benar secara lebih luas.
sumber
Orang-orang seperti itu akan menolak MLE sebagai metode umum untuk membuat estimasi poin. Dalam kasus-kasus tertentu di mana mereka memiliki alasan untuk menggunakan seragam sebelumnya & ingin membuat estimasi posteriori maksimum, mereka tidak akan terganggu oleh kebetulan perhitungan mereka dengan MLE.
Mungkin kadang-kadang, untuk membuat perhitungan mereka lebih mudah, tetapi tidak dari sudut pandang prinsip mana pun.
Memang ada perbedaan yang harus dibuat antara pendekatan yang berbeda untuk inferensi Bayesian, tetapi tidak yang satu ini. Jika ada perasaan di mana Bayesianisme lebih umum, itu dalam kemauan untuk menerapkan konsep probabilitas untuk ketidakpastian epistemik tentang nilai parameter & bukan hanya ketidakpastian obrolan dari proses pembuatan data yang merupakan masalah yang kerap diperhatikan sendiri. Inferensi Frequentist bukan kasus khusus inferensi Bayesian & tidak ada jawaban atau komentar di Apakah ada dasar matematika untuk debat Bayesian vs frequentist?menyiratkan bahwa itu. Jika dalam pendekatan Bayesian Anda menganggap parameter sebagai variabel acak konstan, Anda akan mendapatkan posterior yang sama apa pun datanya— & untuk mengatakan itu konstan tetapi Anda tidak tahu nilai apa yang diperlukan tidak akan mengatakan apa-apa layak untuk dikatakan. Pendekatan frequentist mengambil taktik yang sama sekali berbeda & tidak melibatkan perhitungan distribusi posterior sama sekali.
sumber