Bagaimana kerangka bayesian lebih baik dalam interpretasi ketika kita biasanya menggunakan prior tidak informatif atau subjektif?

18

Sering diperdebatkan bahwa kerangka bayesian memiliki keuntungan besar dalam interpretasi (lebih sering), karena ia menghitung probabilitas parameter yang diberikan data - daripada seperti pada kerangka kerja frequentist. Sejauh ini baik.p(θ|x)p(x|θ)

Tapi, seluruh persamaan itu didasarkan pada:

p(θ|x)=p(x|θ).p(θ)p(x)

menurut saya sedikit mencurigakan karena 2 alasan:

  1. Dalam banyak makalah, biasanya prior uninformative (distribusi seragam) digunakan dan kemudian hanya , sehingga bayesian mendapatkan hasil yang sama dengan frekuensi yang didapat - jadi bagaimana kerangka bayesian yang lebih baik di interpretasi, ketika bayesian posterior dan frequentist kemungkinan distribusi yang sama? Itu hanya menghasilkan hasil yang sama.p(θ|x)=p(x|θ)

  2. Saat menggunakan prior informatif, Anda mendapatkan hasil yang berbeda, tetapi bayesian dipengaruhi oleh subyektif sebelumnya, sehingga seluruh memiliki semburat subyektif juga.p(θ|x)

Dengan kata lain, seluruh argumen menjadi lebih baik dalam interpretasi daripada didasarkan pada anggapan bahwa adalah semacam "nyata", yang biasanya bukan, itu hanyalah titik awal kita entah bagaimana memilih untuk menjalankan MCMC, sebuah anggapan, tetapi itu bukan deskripsi realitas (itu tidak bisa didefinisikan, saya pikir).p ( x | θ ) p ( θ )p(θ|x)p(x|θ)p(θ)

Jadi bagaimana kita bisa berpendapat bahwa bayesian lebih baik dalam interpretasi?

Ingin tahu
sumber
4
(1) terlihat mencurigakan karena kesimpulannya salah: hasil Bayesian dengan prior yang tidak informatif tidak harus sama dengan kesimpulan yang sering. Bahkan, dalam banyak kasus tampaknya tidak ada kesepakatan tentang apa "bahkan sebelum informasi" itu! (2) juga dapat diperdebatkan karena secara implisit mengasumsikan bahwa setiap asumsi yang dibuat dalam analisis frequentist tidak subyektif - tetapi bukan itu masalahnya. Akhirnya, apa yang sebenarnya Anda maksudkan dengan "interpretasi yang lebih baik"? Pertanyaan Anda ambigu tanpa definisi tentang itu.
whuber
1
Selain komentar Whuber yang ingin saya katakan, tidak ada alasan umum mengapa Bayes lebih baik daripada sering, demikian argumennya. Terkadang Bayes memberikan hasil yang bermakna dan terkadang cara yang lebih sering lebih baik. Namun, dalam bidang yang diterapkan, seharusnya tidak ada alasan mengapa seseorang harus mendapatkan hasil yang sangat berbeda. Dari sudut pandang filosofis, Bayes jelas kuat, tetapi seperti yang kita semua tahu, teori & praktik berbeda, kadang secara drastis. Juga, saya agak khawatir tentang paragraf pertama Anda. Tampak bagi saya bahwa Anda seorang Bayesian yang berkomitmen (tidak ada yang salah dengan itu.).
suncoolsu
Haruskah judulnya tidak uninformative or *objective* priors? The subjectiveprior yang persis informatif prior.
javadba

Jawaban:

15

Untuk memberikan respons yang lebih sempit daripada yang sangat baik yang telah diposting, dan fokus pada keuntungan dalam interpretasi - interpretasi Bayesian dari, misalnya, "interval kredibel 95%" adalah bahwa probabilitas bahwa nilai parameter sebenarnya terletak di dalam Interval sama dengan 95%. Salah satu dari dua interpretasi frequentist umum dari, misalnya, "interval kepercayaan 95%", bahkan jika secara numerik keduanya identik, adalah bahwa dalam jangka panjang, jika kita melakukan prosedur berkali-kali, frekuensi dengan mana Interval akan mencakup nilai riil akan menyatu menjadi 95%. Yang pertama adalah intuitif, yang terakhir tidak. Coba jelaskan kepada manajer kapan saja Anda tidak bisa mengatakan "Kemungkinan panel surya kita akan menurun kurang dari 20% selama 25 tahun adalah 95%", tetapi sebaliknya harus mengatakan "

Interpretasi frequentist alternatif adalah "Sebelum data dihasilkan, ada peluang 5% interval yang akan saya hitung menggunakan prosedur yang saya selesaikan akan jatuh seluruhnya di bawah nilai parameter yang sebenarnya. Namun, sekarang kami telah mengumpulkan data, kami tidak dapat membuat pernyataan seperti itu, karena kami bukan subyektivis dan probabilitasnya adalah 0 atau 1, tergantung pada apakah itu benar atau tidak terletak sepenuhnya di bawah nilai parameter yang sebenarnya. " Itu akan membantu auditor dan ketika menghitung cadangan garansi. (Saya benar-benar menemukan definisi ini masuk akal, meskipun biasanya tidak berguna; itu juga tidak mudah dimengerti secara intuitif, dan terutama tidak jika Anda bukan ahli statistik.)

Interpretasi frequentist tidak intuitif. Versi Bayesian adalah. Karenanya "keuntungan besar dalam interpretasi" dipegang oleh pendekatan Bayesian.

Jbowman
sumber
Masalah saya dengan argumen anti sering adalah bahwa ia mencoba terlalu banyak untuk menggambarkan prosedur sebagai jawaban. Cobalah eksperimen yang sama untuk diri Anda sendiri dalam interpretasi, tetapi untuk kesimpulan apa yang bisa ditarik dari hasilnya. Bagaimana tepatnya Anda bertindak berbeda berdasarkan mendengar hasil yang diberikan oleh frequentist dan Bayesian? Pada kenyataannya, Anda masih akan bertindak sama ketika Anda memahami keduanya. Tidak perlu pergi ke tingkat prosedur untuk menjelaskan bahwa "yang terbaik adalah bertindak ini dan itu berdasarkan pada kepercayaan yang diberikan oleh data".
PascalVKooten
Juga, menurut definisi, Anda harus melakukan lebih banyak penjelasan dalam kasus bayesian, karena Anda tidak hanya memiliki "apa yang diceritakan oleh data" tetapi juga informasi apa yang terkandung sebelumnya! Orang Bayesian cenderung membuat penjelasan yang cukup sering, tetapi mereka tidak menjelaskan apa yang telah mereka pilih sebelumnya, mengapa mereka memilih sebelum dan secara khusus mengapa sebelumnya.
PascalVKooten
Yah, sebagian saya akan tidak setuju dengan poin terakhir Anda. Sebagai contoh, ketika saya melakukan analisis reliabilitas pada peralatan yang sangat, sangat mahal di pekerjaan saya sebelumnya, kami memperlakukan hasil analisis reliabilitas kami sebelumnya sebagai prioritas untuk yang baru, menurunkan bobot dalam hal "ukuran sampel yang setara" untuk memperhitungkan nonstasioneritas dari dunia nyata dan perubahan kecil dalam desain dll. Dan, sungguh, statistik Bayesian adalah semua tentang memperbarui data Anda sebelumnya dengan; statistik klasik tidak "memperbarui", jadi Anda hanya mendapatkan hasil yang sama jika sebelumnya Anda datar, dengan beberapa pengecualian.
jbowman
Saya hanya akan menggabungkan dataset dan melakukan analisis lain ... tidak perlu membuat sebelumnya. Tidak ada yang lebih baik dari data sebelumnya yang sebenarnya: Anda mendapatkan posterior berbasis data "nyata".
PascalVKooten
Yah Anda mungkin tidak ingin persis posterior sebelumnya untuk yang baru sebelumnya, dalam kasus kami karena perubahan desain kecil yang sedang berlangsung dan pengetahuan kami bahwa mfg. proses juga berkembang membuat sebelumnya kami tidak 100% informatif untuk data masa depan. Mungkin juga ada pertimbangan run-time. Tetapi poin Anda umumnya bagus, menurut saya.
jbowman
13

hal(θ|x)hal(x|θ)hal(x|θ)hal(θ|x)

Perhatikan bahwa prior informatif tidak selalu subyektif, misalnya saya tidak akan menganggapnya sebagai pengetahuan subjektif untuk menegaskan bahwa pengetahuan sebelumnya tentang beberapa sistem fisik harus independen dari unit pengukuran (karena mereka pada dasarnya arbitrer), yang mengarah ke ide kelompok transformasi dan prior "minim informasi".

Sisi lain dari mengabaikan pengetahuan subjektif adalah bahwa sistem Anda mungkin kurang optimal karena Anda mengabaikan pengetahuan ahli, sehingga subjektivitas tidak selalu merupakan hal yang buruk. Misalnya dalam masalah "simpulkan bias koin" yang biasa, sering digunakan sebagai contoh yang memotivasi, Anda akan belajar secara relatif lambat dengan seragam sebelum datanya masuk. Tetapi apakah semua jumlah bias sama-sama berpeluang besar sebagai asumsi yang masuk akal? Tidak, mudah untuk membuat koin yang sedikit bias, atau yang sepenuhnya bias (dua kepala atau dua sahabat), jadi jika kita membangun asumsi tersebut ke dalam analisis kita, melalui prior subjektif, kita akan memerlukan lebih sedikit data untuk mengidentifikasi apa yang Bias sebenarnya.

Analisis Frequentist juga sering mengandung elemen subjektif (misalnya keputusan untuk menolak hipotesis nol jika nilai-p kurang dari 0,05, tidak ada paksaan logis untuk melakukannya, itu hanya tradisi yang telah terbukti bermanfaat). Keuntungan dari pendekatan Bayesian adalah bahwa subjektivitas dibuat eksplisit dalam perhitungan, daripada membiarkannya implisit.

Pada akhirnya, itu adalah masalah "kuda untuk kursus", Anda harus memiliki kedua set alat di kotak alat Anda, dan bersiaplah untuk menggunakan alat terbaik untuk tugas yang ada.

Dikran Marsupial
sumber
6

Kerangka kerja Bayesian memiliki keuntungan besar daripada sering terjadi karena tidak bergantung pada memiliki "bola kristal" dalam hal mengetahui asumsi distribusi yang tepat untuk dibuat. Metode Bayesian bergantung pada penggunaan informasi apa yang Anda miliki, dan mengetahui cara menyandikan informasi itu ke dalam distribusi probabilitas.

Menggunakan metode Bayesian pada dasarnya menggunakan teori probabilitas dalam kekuatan penuhnya. Teorema Bayes tidak lain adalah pernyataan ulang dari aturan produk klasik tentang teori probabilitas:

hal(θx|saya)=hal(θ|saya)hal(x|θsaya)=hal(x|saya)hal(θ|xsaya)

hal(x|saya)0saya

Sekarang, jika Anda berpikir bahwa teorema Bayes adalah tersangka, maka secara logis, Anda juga harus berpikir bahwa aturan produk juga mencurigakan. Anda dapat menemukan argumen deduktif di sini , yang memperoleh produk dan menjumlahkan aturan, mirip dengan teorema Cox. Daftar asumsi yang lebih eksplisit yang diperlukan dapat ditemukan di sini .

Sejauh yang saya tahu, kesimpulan sering tidak didasarkan pada serangkaian fondasi dalam kerangka kerja logis. Karena menggunakan aksioma probabilitas Kolmogorov, tampaknya tidak ada hubungan antara teori probabilitas dan inferensi statistik. Tidak ada aksioma untuk inferensi frequentist yang mengarah pada prosedur yang harus diikuti. Ada prinsip dan metode (kemungkinan maksimum, interval kepercayaan, nilai-p, dll), dan mereka bekerja dengan baik, tetapi mereka cenderung terisolasi dan dikhususkan untuk masalah tertentu. Saya pikir metode frequentist sebaiknya dibiarkan kabur dalam fondasinya, setidaknya dalam hal kerangka logis yang ketat.

1θ

2

Menggunakan seragam sebelumnya seringkali merupakan perkiraan yang mudah untuk dibuat ketika kemungkinannya tajam dibandingkan dengan sebelumnya. Kadang tidak sepadan dengan usaha, untuk melewati dan mengatur dengan benar sebelumnya. Demikian pula, jangan membuat kesalahan dengan mengacaukan statistik Bayesian dengan MCMC. MCMC hanyalah sebuah algoritma untuk integrasi, sama seperti guassian quadratre, dan dalam kelas yang mirip dengan pendekatan Laplace. Ini sedikit lebih berguna daripada kuadrat karena Anda dapat menggunakan kembali output algoritma untuk melakukan semua integral Anda (sarana posterior dan varians adalah integral), dan sedikit lebih umum bahwa Laplace karena Anda tidak memerlukan sampel besar, atau puncak membulat di posterior (Laplace lebih cepat).

probabilityislogic
sumber
3

μ=0) ditempatkan di atas koefisien regresi, menyandikan pengetahuan bahwa semua hal dianggap sama, kami lebih suka solusi di mana koefisien memiliki besaran lebih rendah. Hal ini untuk menghindari kelebihan set data, dengan menemukan solusi yang memaksimalkan fungsi objektif tetapi tidak masuk akal dalam konteks khusus masalah kita. Dalam arti tertentu, mereka menyediakan cara untuk memberikan model statistik beberapa "petunjuk" tentang domain tertentu.

Namun, ini bukan (menurut saya) aspek terpenting dari metodologi Bayesian. Metode Bayes bersifat generatif, karena memberikan "cerita" lengkap tentang bagaimana data muncul. Dengan demikian, mereka bukan sekadar pencari pola, melainkan mereka mampu memperhitungkan kenyataan sepenuhnya dari situasi yang ada. Sebagai contoh, pertimbangkan LDA (alokasi Dirichlet laten), yang menyediakan cerita generatif lengkap tentang bagaimana dokumen teks muncul, yang berbentuk seperti ini:

  1. Pilih beberapa campuran topik berdasarkan kemungkinan topik tertentu terjadi bersama; dan
  2. Pilih beberapa set kata dari kosakata, dikondisikan berdasarkan topik yang dipilih.

Dengan demikian, model ini sesuai berdasarkan pemahaman yang sangat spesifik tentang objek dalam domain (di sini, dokumen teks) dan bagaimana mereka dibuat; oleh karena itu, informasi yang kami dapatkan disesuaikan secara langsung dengan domain masalah kami (kemungkinan kata-kata diberikan topik, kemungkinan topik yang disebutkan bersama-sama, kemungkinan dokumen yang berisi topik dan sejauh mana, dll). Kenyataan bahwa Teorema Bayes diperlukan untuk melakukan ini hampir sekunder, maka lelucon kecil, "Bayes tidak akan menjadi Bayesian, dan Kristus tidak akan menjadi seorang Kristen."

Singkatnya, model Bayesian adalah tentang pemodelan objek domain secara ketat menggunakan distribusi probabilitas; oleh karena itu, kami dapat menyandikan pengetahuan yang tidak akan tersedia dengan teknik diskriminatif sederhana.

William
sumber