Kapan (dan mengapa) orang Bayesian menolak metode Bayesian yang valid? [Tutup]

9

Dari apa yang saya baca dan dari jawaban untuk pertanyaan lain yang saya ajukan di sini, banyak yang disebut metode frequentist berhubungan secara matematis ( saya tidak peduli apakah mereka sesuai secara filosofis , saya hanya peduli apakah itu sesuai secara matematis) dengan kasus khusus yang disebut Metode Bayesian (bagi mereka yang keberatan dengan hal ini, lihat catatan di bagian bawah pertanyaan ini). Jawaban untuk pertanyaan terkait ini (bukan milik saya) mendukung kesimpulan ini:

Kebanyakan metode Frequentist memiliki padanan Bayesian yang pada dasarnya akan memberikan hasil yang sama.

Perhatikan bahwa dalam apa yang berikut, menjadi matematis yang sama berarti memberikan hasil yang sama. Jika Anda mencirikan dua metode yang dapat dibuktikan selalu memberikan hasil yang sama dengan menjadi "berbeda", itu adalah hak Anda, tetapi itu adalah penilaian filosofis, bukan yang matematis atau yang praktis.

Namun, banyak orang yang menggambarkan diri sendiri sebagai "Bayesian", tampaknya menolak menggunakan estimasi kemungkinan maksimum dalam keadaan apa pun, meskipun itu merupakan kasus khusus dari metode Bayesian (secara matematis ), karena ini adalah "metode yang sering terjadi". Rupanya Bayesian juga menggunakan jumlah distribusi yang terbatas / terbatas dibandingkan dengan frequentist, meskipun distribusi tersebut juga akan benar secara matematis dari sudut pandang Bayesian.

Pertanyaan: Kapan dan mengapa Bayesian menolak metode yang secara matematis benar dari sudut pandang Bayesian? Apakah ada pembenaran untuk ini yang tidak "filosofis"?

masukkan deskripsi gambar di sini

Latar Belakang / Konteks: Berikut ini adalah kutipan dari jawaban dan komentar untuk pertanyaan saya sebelumnya di CrossValidated :

Dasar matematika untuk debat Bayesian vs frequentist sangat sederhana. Dalam statistik Bayesian, parameter yang tidak diketahui diperlakukan sebagai variabel acak; dalam statistik frequentist diperlakukan sebagai elemen tetap ...

Dari penjelasan di atas saya akan menyimpulkan bahwa (secara matematis ) metode Bayesian lebih umum daripada yang sering, dalam arti bahwa model frequentist memenuhi semua asumsi matematika yang sama dengan yang Bayesian, tetapi tidak sebaliknya. Namun, jawaban yang sama berpendapat bahwa kesimpulan saya di atas tidak benar (penekanan pada bagian berikut adalah milik saya):

Meskipun konstanta adalah kasus khusus dari variabel acak, saya akan ragu untuk menyimpulkan bahwa Bayesianisme lebih umum. Anda tidak akan mendapatkan hasil yang sering dari yang Bayesian dengan hanya menciutkan variabel acak ke konstanta. Perbedaannya lebih mendalam ...

Pergi ke preferensi pribadi ... Saya tidak suka bahwa statistik Bayes menggunakan subset yang sangat terbatas dari distribusi yang tersedia.

Pengguna lain, dalam jawaban mereka, menyatakan sebaliknya, bahwa metode Bayesian yang lebih umum, meskipun anehnya alasan terbaik saya bisa menemukan untuk mengapa hal ini mungkin terjadi adalah dalam jawaban sebelumnya, yang diberikan oleh seseorang yang terlatih sebagai frequentist a.

Konsekuensi matematis adalah bahwa Frequentists berpikir persamaan dasar probabilitas hanya kadang-kadang berlaku, dan Bayesian berpikir mereka selalu berlaku. Jadi mereka melihat persamaan yang sama sebagai benar, tetapi berbeda pada seberapa umum mereka ... Bayesian benar - benar lebih umum daripada Frequentist. Karena bisa ada ketidakpastian tentang fakta apa pun, fakta apa pun dapat ditetapkan sebagai probabilitas. Khususnya, jika fakta yang sedang Anda kerjakan terkait dengan frekuensi dunia nyata (baik sebagai sesuatu yang Anda prediksi atau bagian dari data) maka metode Bayesian dapat mempertimbangkan dan menggunakannya seperti halnya fakta dunia nyata lainnya. Konsekuensinya masalah apa pun yang sering dirasakan oleh para ahli Bayesian pada orang Bayesian juga dapat bekerja secara alami.

Dari jawaban di atas, saya mendapat kesan bahwa setidaknya ada dua definisi berbeda dari istilah Bayesian yang umum digunakan. Yang pertama saya sebut "Bayesian secara matematis" yang mencakup semua metode statistik, karena mencakup parameter yang merupakan RV konstan dan yang tidak RV konstan. Lalu ada "secara budaya Bayesian" yang menolak beberapa metode "secara matematis Bayesian" karena metode-metode itu "kerap kali" (yaitu karena permusuhan pribadi terhadap parameter yang kadang-kadang dimodelkan sebagai konstanta atau frekuensi). Jawaban lain untuk pertanyaan tersebut di atas tampaknya juga mendukung dugaan ini:

Juga perlu dicatat bahwa ada banyak perbedaan antara model yang digunakan oleh dua kubu yang lebih terkait dengan apa yang telah dilakukan daripada apa yang bisa dilakukan (yaitu banyak model yang secara tradisional digunakan oleh satu kubu dapat dibenarkan oleh kubu lain ).

Jadi saya kira cara lain untuk mengutarakan pertanyaan saya adalah sebagai berikut: Mengapa orang Bayes kultural menyebut diri mereka orang Bayes jika mereka menolak banyak metode Bayes secara matematis? Dan mengapa mereka menolak metode Bayesian secara matematis ini? Apakah ini permusuhan pribadi bagi orang-orang yang paling sering menggunakan metode-metode khusus itu?

Sunting: Dua objek setara dalam arti matematika jika mereka memiliki sifat yang sama , terlepas dari bagaimana mereka dibangun. Sebagai contoh, saya dapat memikirkan setidaknya lima cara berbeda untuk membangun unit imajiner . Namun demikian, tidak ada setidaknya lima "aliran pemikiran" yang berbeda tentang studi angka imajiner; sebenarnya, saya percaya hanya ada satu, yaitu kelompok yang mempelajari sifat-sifat mereka. Bagi mereka yang keberatan bahwa mendapatkan estimasi titik menggunakan kemungkinan maksimum bukanlah hal yang sama dengan mendapatkan estimasi titik menggunakan maksimum a priori dan seragam sebelumnya karena perhitungan yang terlibat berbeda, saya mengakui bahwa mereka berbeda dalam arti filosofis , tetapi untuk Sejauh yang mereka selaluimemberikan nilai yang sama untuk estimasi, mereka secara matematis setara, karena mereka memiliki sifat yang sama . Mungkin perbedaan filosofis relevan bagi Anda secara pribadi, tetapi tidak relevan dengan pertanyaan ini.

Catatan: Pertanyaan ini awalnya memiliki karakterisasi yang salah dari estimasi MLE dan estimasi MAP dengan seragam sebelumnya.

Chill2Macht
sumber
8
(-1) Pertanyaan ini didasarkan pada asumsi yang salah. MLE tidak sesuai dengan 'menggunakan seragam sebelum' tetapi untuk menggunakan seragam sebelum dan memilih mode distribusi posterior (jadi, MAP dengan seragam sebelumnya). Saat menggunakan MLE, parameter tidak dianggap sebagai variabel acak, jadi konstruksi seperti , atau integral over secara matematis tidak bermakna. θ yPr(θ[0,1]y)θy
Juho Kokkala
3
Saya tidak ingat orang Bayesian yang menolak apa pun yang bukan orang Bayesian, atau yang menggunakan distribusi dalam jumlah terbatas. Orang dapat dengan mudah mengganti "Bayesians" dengan "frequentist" dalam pertanyaan Anda dan bertanya mengapa frequentist menolak semua yang non-frequentist, dan mengapa mereka menggunakan jumlah distribusi terbatas (pada dasarnya, distribusi normal di mana-mana) - pertanyaan yang muncul adalah sama tidak jelas seperti milikmu. Saya juga setuju dengan @JuhoKokkala bahwa MLE menggunakan seragam sebelumnya meskipun estimasi titik mereka mungkin sesuai.
Tim
5
MLE dan MAP tidak memiliki sifat matematika yang sama. Jika Anda membuat ulang variabel Anda, MLE dan MAP bertransformasi secara berbeda (karena MLE memiliki "flat prior" di setiap parametrization, MAP tidak). Definisi objek matematika mencakup bagaimana objek berperilaku di bawah operator seperti transformasi variabel (misalnya, lihat definisi a tensor). Jadi mereka bukan hal yang sama.
lacerbi
2
Saya akan membuat jawaban (singkat), karena mengejutkan bahwa tidak ada yang menyebutkan sejauh ini. Saya juga harus menjelaskannya berkali-kali di masa lalu, karena itu adalah kehalusan yang dapat dengan mudah dilewatkan.
lacerbi
4
Apakah Anda pernah bermain konsep dengan set catur? Hal ini dapat terjadi dari waktu ke waktu ketika Anda menemukan diri Anda dalam posisi catur yang valid & dapat membuat gerakan catur legal yang juga merupakan langkah draft legal. Tentu saja apa yang akan menjadi langkah catur yang baik tidak akan selalu menjadi langkah draft yang bagus . Dan Anda tidak akan menghindari membuat draft yang bagus hanya karena itu juga langkah catur. Ini agak berbeda dengan menggambarkan permainan catur dalam bahasa Prancis daripada bahasa Inggris, atau dari memutar papan sehingga kotak hitam menjadi putih atau bertukar posisi awal & aturan yang mengatur ...
Scortchi - Reinstate Monica

Jawaban:

12

Saya ingin mengoreksi asumsi yang salah di pos asli, kesalahan yang relatif umum. OP mengatakan:

Dari apa yang telah saya baca dan dari jawaban untuk pertanyaan lain yang saya tanyakan di sini, estimasi kemungkinan maksimum sesuai secara matematis (saya tidak peduli apakah itu sesuai secara filosofis, saya hanya peduli apakah itu sesuai secara matematis) hingga maksimum perkiraan apriori menggunakan seragam sebelumnya ( untuk mereka yang keberatan dengan hal ini, lihat catatan di bagian bawah pertanyaan ini).

Dan catatan di bagian bawah posting mengatakan:

Dua objek setara dalam arti matematika jika mereka memiliki sifat yang sama, terlepas dari bagaimana mereka dibangun. [...]

Keberatan saya adalah bahwa, selain filosofi, estimasi kemungkinan maksimum (MLE) dan estimasi maksimum-a-posteriori (MAP) tidak memiliki sifat matematika yang sama.

Yang terpenting, MLE dan MAP mentransformasi secara berbeda dalam reparametriisasi ruang (nonlinier). Ini terjadi karena MLE memiliki "flat prior" di setiap parametrization, sedangkan MAP tidak (prior berubah sebagai kepadatan probabilitas , jadi ada istilah Jacobian).

Definisi objek matematika mencakup bagaimana objek berperilaku di bawah operator seperti transformasi variabel (misalnya, lihat definisi a tensor ).

Kesimpulannya, MLE dan MAP bukanlah hal yang sama, baik secara filosofis maupun matematis; ini bukan pendapat.

Lacerbi
sumber
Saya pikir mungkin saya melewatkan poin Anda. Apakah mungkin untuk membuat parameter suatu model sedemikian rupa sehingga estimasi titik dari MLE tidak sama dengan yang dari MAP dengan seragam sebelumnya? (Jelas, dalam kasus MAP, prior harus seragam sehubungan dengan parametrization saat ini agar kesetaraan bekerja. Jika Anda mengubah model dengan tidak mengubah sebelumnya, maka secara umum tidak akan lagi seragam.)
Kodiologist
1
@Kodiologist: OP menyatakan bahwa MAP dan MLE adalah "objek matematika" yang identik. Mereka tidak. Objek matematika yang berbeda dapat sama dalam subruang (misalnya, dalam parametriisasi yang diberikan) tetapi itu tidak membuatnya identik. Anda bisa mengatakan "Saya tidak peduli dengan parametriasi lain" tetapi, yah, maka Anda memaksakan pembatasan praktis yang kuat, itu bukan "sekadar" titik filosofis lagi seperti yang awalnya diperdebatkan oleh OP.
lacerbi
6

Secara pribadi saya seorang "pragmatis" daripada "sering" atau "Bayesian", jadi saya tidak bisa mengklaim untuk berbicara di kamp mana pun.

Yang mengatakan, saya pikir perbedaan yang Anda singgung mungkin tidak begitu banyak MLE vs MAP, tetapi antara estimasi titik vs estimasi posterior PDF . Sebagai seorang ilmuwan yang bekerja di bidang dengan data yang jarang dan ketidakpastian yang besar, saya dapat bersimpati dengan tidak ingin menaruh terlalu banyak kepercayaan pada hasil "tebakan terbaik" yang mungkin menyesatkan, sehingga terlalu percaya diri.

Perbedaan praktis terkait adalah antara metode parametrik vs non-parametrik . Jadi misalnya saya berpikir bahwa penyaringan Kalman dan Penyaringan partikel akan diterima sebagai Estimasi Bayesian Rekursif . Tetapi asumsi Gaussian tentang penyaringan Kalman (metode parametrik) dapat memberikan hasil yang sangat menyesatkan jika posterior tidak unimodal. Bagi saya contoh-contoh teknik semacam ini menyoroti di mana perbedaan bukanlah filosofis atau matematika, tetapi nyata dalam hal hasil praktis (yaitu apakah kendaraan otonom Anda akan crash?). Bagi para penggemar Bayesian yang saya kenal, sikap "melihat apa yang berhasil" ini tampaknya lebih dominan ... tidak yakin apakah ini benar secara lebih luas.

GeoMatt22
sumber
1
Apakah kebisingan dimodelkan Gaussian atau dari distribusi lain tidak menentukan apakah suatu metode parametrik atau non-parametrik.
Cliff AB
1
Saya sedang memikirkan penyaringan partikel vs penyaringan Kalman.
GeoMatt22
1
@CliffAB Saya mengedit jawaban saya untuk semoga memperbaiki implikasi yang tidak disengaja bahwa "Gaussian <==> parametric"
GeoMatt22
2
Dalam pengalaman saya (sama sekali tidak komprehensif!), Buku-buku yang ditujukan untuk insinyur di bidang "teknologi" cenderung lebih seperti ini. Hal-hal seperti robotika dan aplikasi real-time / robust lainnya cenderung untuk mencari tahu dengan cepat ketika segala sesuatu tidak berfungsi. Itu mungkin secara nominal lebih Bayesian, tetapi Probabilistic Robotics milik Sebastian Thrun mencerahkan saya. Dia adalah pria Udacity .
GeoMatt22
2
Saya belum mempelajari bidang ini sama sekali, tetapi kesan saya adalah banyak dari Keandalan Rekayasa klasik menggunakan pendekatan "frequentist", jadi ini mungkin juga merupakan area dengan teks pragmatis?
GeoMatt22
6

Namun, banyak orang yang menggambarkan diri sendiri sebagai "Bayesian", tampaknya menolak menggunakan estimasi kemungkinan maksimum dalam keadaan apa pun, meskipun itu merupakan kasus khusus dari metode Bayesian (secara matematis), karena ini adalah "metode yang sering terjadi".

Orang-orang seperti itu akan menolak MLE sebagai metode umum untuk membuat estimasi poin. Dalam kasus-kasus tertentu di mana mereka memiliki alasan untuk menggunakan seragam sebelumnya & ingin membuat estimasi posteriori maksimum, mereka tidak akan terganggu oleh kebetulan perhitungan mereka dengan MLE.

Rupanya Bayesian juga menggunakan jumlah distribusi yang terbatas / terbatas dibandingkan dengan frequentist, meskipun distribusi tersebut juga akan benar secara matematis dari sudut pandang Bayesian.

Mungkin kadang-kadang, untuk membuat perhitungan mereka lebih mudah, tetapi tidak dari sudut pandang prinsip mana pun.

Saya memiliki kesan bahwa setidaknya ada dua definisi yang berbeda dari istilah Bayesian yang umum digunakan. Yang pertama saya sebut "Bayesian secara matematis" yang mencakup semua metode statistik, karena mencakup parameter yang merupakan RV konstan dan yang tidak RV konstan. Lalu ada "secara budaya Bayesian" yang menolak beberapa metode "secara matematis Bayesian" karena metode-metode itu "kerap kali" (yaitu karena permusuhan pribadi terhadap parameter yang kadang-kadang dimodelkan sebagai konstanta atau frekuensi).

Memang ada perbedaan yang harus dibuat antara pendekatan yang berbeda untuk inferensi Bayesian, tetapi tidak yang satu ini. Jika ada perasaan di mana Bayesianisme lebih umum, itu dalam kemauan untuk menerapkan konsep probabilitas untuk ketidakpastian epistemik tentang nilai parameter & bukan hanya ketidakpastian obrolan dari proses pembuatan data yang merupakan masalah yang kerap diperhatikan sendiri. Inferensi Frequentist bukan kasus khusus inferensi Bayesian & tidak ada jawaban atau komentar di Apakah ada dasar matematika untuk debat Bayesian vs frequentist?menyiratkan bahwa itu. Jika dalam pendekatan Bayesian Anda menganggap parameter sebagai variabel acak konstan, Anda akan mendapatkan posterior yang sama apa pun datanya— & untuk mengatakan itu konstan tetapi Anda tidak tahu nilai apa yang diperlukan tidak akan mengatakan apa-apa layak untuk dikatakan. Pendekatan frequentist mengambil taktik yang sama sekali berbeda & tidak melibatkan perhitungan distribusi posterior sama sekali.

Scortchi - Reinstate Monica
sumber
"Pendekatan frequentist mengambil taktik yang sama sekali berbeda & tidak melibatkan perhitungan distribusi posterior sama sekali" - itu bukan poin saya. Saya tidak berbicara tentang maksud filosofis, saya berbicara tentang kesetaraan matematika. Seseorang dapat mengatakan bahwa mereka adalah "subtractivist" karena mereka hanya menambah dan mengurangi angka positif tetapi menolak untuk menggunakan angka negatif, yaitu "negativist". Secara filosofis itu mungkin terjadi, tetapi secara matematis mengurangkan angka positif adalah sama dengan menambahkan angka negatif.
Chill2Macht
Apa yang saya coba katakan adalah bahwa "secara matematis Bayesian" akan menerapkan dan tidak menerapkan konsep probabilitas pada ketidakpastian epistemik tentang nilai parameter. "Culturally Bayesian" hanya akan menerapkan (dan tidak pernah tidak menerapkan) konsep probabilitas untuk ketidakpastian epistemik tentang nilai parameter. "Frequentist" hanya akan tidak menerapkan (dan tidak pernah menerapkan) probabilitas untuk ketidakpastian epistemik tentang nilai parameter. Apa yang saya katakan adalah bahwa "inferensi Bayesian = secara kultural Bayesian" dan "frequentist" tampak seperti kasus khusus berdasarkan pada apa yang dikatakan orang.
Chill2Macht
Lagi pula saya kira saya akan mencoba membaca Asymptotic Statistics van der Vaart sebelum mengomentari lebih lanjut tentang statistik frequentist, tetapi setelah membaca sudah Casella dan Berger dan nol buku teks Bayesian saya tidak mengerti pernyataan bahwa "pendekatan frequentist mengambil cara yang sama sekali berbeda" dari menerapkan konsep probabilitas untuk "hanya ketidakpastian obrolan dari proses menghasilkan data", karena tampaknya bertentangan dengan bagian lain dari apa yang Anda tulis.
Chill2Macht
2
3-5
2
Mode Inferensi Statistik Parametrik , & Barnett (1999), Inferensi Statistik Komparatif . (4) Pendekatan frequentist hanya mempertimbangkan probabilitas data di bawah nilai parameter yang diberikan; pendekatan Bayesian mengkondisikan pada data yang diamati untuk mendapatkan posterior.
Scortchi