Apa saja keberatan praktis untuk penggunaan metode statistik Bayesian dalam konteks apa pun? Tidak, saya tidak bermaksud peduli tentang pilihan sebelumnya. Saya akan senang jika ini tidak mendapat jawaban.
Pertanyaannya dibingkai baik-baik saja, tetapi komentarnya sampai pada garis argumentasi dan mengancam akan meluap ke sisi yang salah dari garis itu. Hati-hati ... ini bukan tempat untuk perdebatan seperti itu. Buat ruang obrolan jika Anda ingin melakukannya.
whuber
Jawaban:
40
Saya akan memberi Anda jawaban. Empat kelemahan sebenarnya. Perhatikan bahwa tidak satu pun dari ini yang benar-benar keberatan yang harus mengarahkan seseorang ke analisis frequentist, tetapi ada kontra untuk menggunakan kerangka Bayesian:
Pilihan sebelumnya. Ini adalah alasan yang biasa karena suatu alasan, meskipun dalam kasus saya ini bukanlah "prioritas bersifat subjektif!" tapi itu datang dengan prior yang beralasan dan benar-benar mewakili upaya terbaik Anda dalam meringkas prior adalah banyak pekerjaan dalam banyak kasus. Seluruh tujuan disertasi saya, misalnya, dapat disimpulkan sebagai "perkiraan prior".
Ini intensif secara komputasi. Terutama untuk model yang melibatkan banyak variabel. Untuk dataset besar dengan banyak variabel yang diperkirakan, mungkin sangat intensif komputasi, terutama dalam keadaan tertentu di mana data tidak dapat dengan mudah dilemparkan ke cluster atau sejenisnya. Beberapa cara untuk mengatasinya, seperti data yang diperbesar daripada MCMC, secara teoritis agak menantang, setidaknya bagi saya.
Distribusi posterior agak lebih sulit untuk dimasukkan ke dalam meta-analisis, kecuali deskripsi parametrik distribusi yang sering diberikan.
Bergantung pada jurnal apa analisis yang dimaksudkan, baik penggunaan Bayes secara umum, atau pilihan Anda, memberikan makalah Anda sedikit lebih banyak poin di mana pengulas dapat menggali ke dalamnya. Beberapa di antaranya adalah keberatan resensi yang masuk akal, tetapi beberapa hanya berasal dari sifat Bayes dan seberapa akrab orang di beberapa bidang dengannya.
Tidak satu pun dari hal-hal ini yang dapat menghentikan Anda. Memang, tidak satu pun dari hal-hal ini yang menghentikan saya, dan mudah - mudahan melakukan analisis Bayesian akan membantu mengatasi setidaknya nomor 4.
# 1, ini, idealnya, harus menjadi analisis tahap pertama. Dalam seni ulasan menyala. Dalam ilmu, tinjauan kuantitatif menyala. Bayesian seharusnya tidak meminta maaf tentang hal itu. JIKA freq mendekati data seolah-olah mereka Adam dan Hawa - baik-baik saja. Bab pertama PhD saya adalah meta-analisis (walaupun sering). Siapa yang memilih. Begitulah seharusnya. # 2 Hukum Moore, saya menemukan diskusi singkat dan berbasis XKCD dengan kelompok High Performance Computing lokal dapat banyak membantu. Analisis Meta # 3 menyebalkan. Saya akan mendukung mega-analisis wajib bergulir, dengan kata lain - memberikan data Anda saat Anda menerbitkan.
rosser
7
@rosser Beberapa pemikiran. # 1. Memang harus ada ulasan yang menyala, dan ya, itu harus menjadi langkah pertama. Tetapi analisis Bayesian yang tepat yang mengontrol untuk mengacaukan dengan benar membutuhkan tinjauan litigasi penuh kuantitatif dari setiap variabel untuk dimasukkan dalam model. Itu bukan tugas kecil. # 2. Tergantung pada hukum Moore adalah ide yang buruk. Pertama, keuntungan baru-baru ini telah dibuat sebagian besar dalam sistem multi-core / GPU. Itu membutuhkan perangkat lunak yang ditulis untuk itu, dan masalah yang didapat dari pemrosesan paralel. Model GLM tunggal yang dilakukan dengan MCMC mungkin bukan itu. Lanjut ...
Fomite
6
@rosser dan mungkin ada waktu dengan HPC belum tentu jawabannya. Sebagai contoh, saya bekerja di area di mana perjanjian penggunaan data dan sejenisnya sering mencegah data disimpan pada hal-hal selain sistem yang sangat aman. Cluster lokal ... bukankah itu. Dan pada akhirnya, Hukum Moore hanya sebagus anggaran perangkat keras Anda yang besar. Adapun # 3 dan meta-analisis, saya cenderung tidak setuju, tetapi lebih dari itu, tetap menjadi masalah sampai titik sistem data terbuka sepenuhnya menjadi norma.
Fomite
OK, saya melebih-lebihkan # 3. Tetapi seberapa besar perbedaan yang Anda buat pada SETIAP PREDICTOR terhadap hasilnya? srsly? Apakah analisis sensitivitas menunjukkan perbedaan besar?
rosser
1
@Rosser Kemungkinan tergantung pada sifat prediktor Anda, dan hubungannya dengan paparan dan hasil. Tetapi untuk melakukan analisis sensitivitas seseorang harus memiliki prioritas untuk semua variabel tersebut. Mungkin saya akan menambahkannya sebagai bagian dari disertasi saya. Saya juga menemukan mengkooptasi kekuatan Bayes tetapi mengasumsikan prior informasi yang tidak informatif pada variabel di mana "Saya tidak bisa repot-repot mencari tahu" agak bermasalah.
Fomite
16
Saya seorang Bayesian oleh kecenderungan, tetapi umumnya sering dalam praktek. Alasan untuk ini biasanya adalah melakukan analisis Bayesian lengkap dengan benar (daripada misalnya solusi MAP) untuk jenis masalah yang saya minati adalah rumit dan intensif secara komputasi. Seringkali analisis Bayesian lengkap diperlukan untuk benar-benar melihat manfaat dari pendekatan ini dibandingkan dengan yang sering terjadi.
Bagi saya, trade-off pada dasarnya adalah pilihan antara metode Bayesian yang secara konsep elegan dan mudah dipahami, tetapi sulit untuk diterapkan dalam metode praktik dan sering, yang secara konseptual canggung dan halus (coba jelaskan bagaimana menafsirkan tes hipotesis secara akurat atau mengapa tidak ada probabilitas 95% bahwa nilai sebenarnya terletak pada interval kepercayaan 95%), tetapi yang cocok untuk solusi "buku resep" yang mudah diimplementasikan.
Dari sudut pandang praktis, saya bukan penggemar metode yang membutuhkan banyak perhitungan (saya memikirkan Gibbs sampler dan MCMC, sering digunakan dalam kerangka Bayesian, tetapi ini juga berlaku untuk misalnya teknik bootstrap dalam analisis frequentist). Alasannya adalah segala jenis debugging (menguji implementasi, melihat ketahanan sehubungan dengan asumsi, dll ) itu sendiri membutuhkan banyak simulasi Monte Carlo, dan Anda dengan cepat berada dalam kerumitan komputasi. Saya lebih suka teknik analisis yang mendasari untuk menjadi cepat dan deterministik, bahkan jika mereka hanya perkiraan.
Ini adalah keberatan yang murni praktis, tentu saja: mengingat sumber daya komputasi yang tidak terbatas, keberatan ini akan hilang. Dan itu hanya berlaku untuk sebagian dari metode Bayesian. Juga ini lebih merupakan preferensi mengingat alur kerja saya.
Sejauh ini saya mendengar 1. Hukum Moore, 2. Kerja keras +/- kesabaran dan 3. Ketidaktahuan. Harus mengatakan tidak ada yang meyakinkan. Bayes tampak seperti paradigma yang terlalu melengkung. Misalnya ... mengapa studi GWAS tidak dianalisis a-la Bayes. Mungkinkah mereka mencegah membuang 99,999% data?
rosser
1
Sebaliknya: MCMC dapat mengajarkan seseorang untuk menulis kode lebih cepat dan belajar dari rasa sakit menunggu simulasi selesai. Ini adalah pengalaman saya dengan pemodelan: jika butuh waktu lama untuk dijalankan, saya dapat mengambil manfaat dari belajar bagaimana membuat kode lebih cepat.
Iterator
9
Kadang-kadang ada solusi "klasik" sederhana dan alami untuk masalah, dalam hal ini metode Bayesian yang mewah (terutama dengan MCMC) akan berlebihan.
Lebih lanjut, dalam masalah jenis pemilihan variabel, dapat lebih mudah dan jelas untuk mempertimbangkan sesuatu seperti kemungkinan hukuman; mungkin ada model sebelumnya yang memberikan pendekatan Bayesian yang setara, tetapi bagaimana sebelumnya sesuai dengan kinerja akhir bisa kurang jelas daripada hubungan antara penalti dan kinerja.
Akhirnya, metode MCMC sering membutuhkan seorang ahli untuk menilai konvergensi / pencampuran dan untuk memahami hasilnya.
Saya relatif baru dalam metode Bayesian, tetapi satu hal yang membuat saya jengkel adalah bahwa, sementara saya memahami dasar pemikiran prior (yaitu sains adalah upaya kumulatif, jadi untuk sebagian besar pertanyaan ada sejumlah pengalaman / pemikiran sebelumnya yang harus memberi tahu Anda interpretasi dari data), saya tidak suka bahwa pendekatan Bayesian memaksa Anda untuk mendorong subjektivitas ke awal analisis, menjadikan kontingen hasil akhir. Saya percaya ini bermasalah karena dua alasan: 1) beberapa pembaca yang kurang berpengalaman bahkan tidak akan memperhatikan prior, dan menafsirkan hasil Bayesian sebagai non-kontingen; 2) kecuali data mentah tersedia, sulit bagi pembaca untuk membingkai ulang hasilnya dalam prior subjektif mereka sendiri. Inilah sebabnya saya lebih suka rasio kemungkinan,
(Kritikus yang cerdik akan mencatat bahwa bahkan rasio kemungkinannya adalah "bergantung" dalam arti bahwa hal itu bergantung pada parameterisasi model yang dibandingkan; namun ini adalah fitur yang dimiliki bersama oleh semua metode, Frequentist, Bayesian, dan Likelihoodist)
Masalah sebaliknya dengan statistika frequentist adalah bahwa subjektivitasnya ada, tetapi tidak disebutkan sama sekali. Masalah (praktis) dengan rasio kemungkinan adalah bahwa mereka didasarkan pada mengoptimalkan kemungkinan dan karenanya mengabaikan fakta bahwa mungkin ada solusi lain dengan kemungkinan hanya sedikit lebih sedikit. Di situlah faktor Bayes berguna. Tetapi selalu "kuda untuk kursus".
Dikran Marsupial
6
Teori keputusan adalah teori yang mendasari operasi statistik. Masalahnya adalah menemukan prosedur yang baik (dalam beberapa hal) untuk menghasilkan keputusan dari data. Namun, jarang ada pilihan prosedur yang jelas, dalam arti meminimalkan kerugian yang diharapkan, sehingga kriteria lain harus diminta untuk memilih di antara mereka. Memilih prosedur yang dilakukan Bayes sehubungan dengan beberapa prioritas sebelumnya adalah salah satu dari kriteria ini, tetapi mungkin tidak selalu seperti yang Anda inginkan. Minimax mungkin lebih penting dalam beberapa kasus, atau tidak memihak.
Siapa pun yang bersikeras bahwa sering terjadi salah atau Bayesian atau salah sebagian besar mengungkapkan ketidaktahuan mereka tentang statistik.
Untuk beberapa waktu saya ingin mendidik diri saya lebih banyak tentang pendekatan Bayesian untuk pemodelan untuk melewati pemahaman sepintas saya (saya telah memberi kode sampler Gibbs dalam pekerjaan kursus pascasarjana, tetapi tidak pernah melakukan sesuatu yang nyata). Sepanjang jalan saya pikir beberapa karya Brian Dennis telah memprovokasi dan berharap saya bisa menemukan teman Bayesian (yang tidak ada di lemari) untuk membaca koran dan mendengar tandingan mereka. Jadi, inilah makalah yang saya maksudkan, tetapi kutipan yang selalu saya ingat adalah
Menjadi Bayesian berarti tidak pernah mengatakan bahwa Anda salah.
Makalah pertama (belum membaca yang kedua) tampaknya lebih banyak tentang bagaimana bayes dipraktikkan vs teorinya. Dalam prakteknya model tidak diperiksa dengan ketat sebagaimana mestinya, tetapi dalam teori bayesian statistik memiliki fasilitas pemeriksaan model superior, yang disebut "bukti" oleh Jaynes, yang diwujudkan dalam penyebut P (D | model) dari aturan bayes. Dengan itu Anda dapat membandingkan kesesuaian model, sesuatu yang hanya dapat Anda lakukan secara empiris dalam statistik frequentist. Masalahnya, tentu saja, adalah bahwa bukti sulit untuk dihitung, sehingga kebanyakan orang mengabaikannya dan berpikir bahwa posterior adalah faktor yang sangat penting (lanjutan)
cespinoza
2
pt. 2 Coba googling "skilling nested sampling" dan Anda akan menemukan makalah tentang metode MCMC untuk menghitung bukti. (Ada juga metode pengecekan model lain yang tidak berbasis bukti: Gelman memeriksa modelnya dengan mengambil sampel dari prediksi posterior dan membandingkannya (secara visual atau sebaliknya) dengan data aktual.) Beberapa orang bahkan menyarankan bahwa model harus dirata-ratakan dengan melihat ruang model itu sendiri untuk dipinggirkan. Hal lain yang dapat kita lihat di cakrawala adalah bayes nonparametric, yang memecahkan masalah dengan memungkinkan jangkauan model yang jauh lebih luas daripada model parametrik tradisional.
cespinoza
5
Juga, saya sarankan Anda menonton videolectures.net/mlss09uk_jordan_bfway oleh Michael I. Jordan, seorang prof di berkeley yang cukup seimbang dalam pandangannya tentang Bayes vs Freq. "perang". Saya benar-benar tidak dapat mengomentari paruh kedua makalah pertama b / c saya tidak tahu referensi ekologis. Saya akan membaca yang kedua nanti.
cespinoza
1
@cespinoza: Saya sedang memikirkan ini dalam perjalanan ke kantor. Makalah itu mengatakan seorang Bayesian tidak akan pernah melihat residu (yaitu membandingkan keluaran model dengan data aktual), dan mungkin Bayesian yang lantang mungkin menghindari ini pada prinsipnya, tetapi praktisi seperti Gelman tentu saja membandingkan keluaran model (posterior prediktif) dengan data aktual. Saya tidak cukup tahu untuk melangkah lebih jauh, tetapi kesan saya tentang surat-surat itu adalah bahwa mereka mengatur pria jerami "pada prinsipnya" untuk menyerang.
Wayne
1
Tambahkan saja bahwa Bayesian yang tidak memeriksa residu adalah ahli statistik yang buruk. Biasanya, metode Bayesian digunakan dengan model "kasar dan siap" dan sebelumnya. Memeriksa residu adalah salah satu cara untuk melihat apakah Anda memiliki cukup pengetahuan Anda di bagian awal dan model. Ini berjalan seiring dengan memeriksa fitur teoritis apa yang model Anda dan miliki sebelumnya
probabilityislogic
5
Apa masalah terbuka di Bayesian Statistics dari buletin triwulanan ISBA daftar 5 masalah dengan statistik bayesian dari berbagai pemimpin di lapangan, # 1 adalah, cukup membosankan, "Pemilihan model dan pengujian hipotesis".
Jawaban:
Saya akan memberi Anda jawaban. Empat kelemahan sebenarnya. Perhatikan bahwa tidak satu pun dari ini yang benar-benar keberatan yang harus mengarahkan seseorang ke analisis frequentist, tetapi ada kontra untuk menggunakan kerangka Bayesian:
Tidak satu pun dari hal-hal ini yang dapat menghentikan Anda. Memang, tidak satu pun dari hal-hal ini yang menghentikan saya, dan mudah - mudahan melakukan analisis Bayesian akan membantu mengatasi setidaknya nomor 4.
sumber
Saya seorang Bayesian oleh kecenderungan, tetapi umumnya sering dalam praktek. Alasan untuk ini biasanya adalah melakukan analisis Bayesian lengkap dengan benar (daripada misalnya solusi MAP) untuk jenis masalah yang saya minati adalah rumit dan intensif secara komputasi. Seringkali analisis Bayesian lengkap diperlukan untuk benar-benar melihat manfaat dari pendekatan ini dibandingkan dengan yang sering terjadi.
Bagi saya, trade-off pada dasarnya adalah pilihan antara metode Bayesian yang secara konsep elegan dan mudah dipahami, tetapi sulit untuk diterapkan dalam metode praktik dan sering, yang secara konseptual canggung dan halus (coba jelaskan bagaimana menafsirkan tes hipotesis secara akurat atau mengapa tidak ada probabilitas 95% bahwa nilai sebenarnya terletak pada interval kepercayaan 95%), tetapi yang cocok untuk solusi "buku resep" yang mudah diimplementasikan.
Kuda untuk kursus.
sumber
Dari sudut pandang praktis, saya bukan penggemar metode yang membutuhkan banyak perhitungan (saya memikirkan Gibbs sampler dan MCMC, sering digunakan dalam kerangka Bayesian, tetapi ini juga berlaku untuk misalnya teknik bootstrap dalam analisis frequentist). Alasannya adalah segala jenis debugging (menguji implementasi, melihat ketahanan sehubungan dengan asumsi, dll ) itu sendiri membutuhkan banyak simulasi Monte Carlo, dan Anda dengan cepat berada dalam kerumitan komputasi. Saya lebih suka teknik analisis yang mendasari untuk menjadi cepat dan deterministik, bahkan jika mereka hanya perkiraan.
Ini adalah keberatan yang murni praktis, tentu saja: mengingat sumber daya komputasi yang tidak terbatas, keberatan ini akan hilang. Dan itu hanya berlaku untuk sebagian dari metode Bayesian. Juga ini lebih merupakan preferensi mengingat alur kerja saya.
sumber
Kadang-kadang ada solusi "klasik" sederhana dan alami untuk masalah, dalam hal ini metode Bayesian yang mewah (terutama dengan MCMC) akan berlebihan.
Lebih lanjut, dalam masalah jenis pemilihan variabel, dapat lebih mudah dan jelas untuk mempertimbangkan sesuatu seperti kemungkinan hukuman; mungkin ada model sebelumnya yang memberikan pendekatan Bayesian yang setara, tetapi bagaimana sebelumnya sesuai dengan kinerja akhir bisa kurang jelas daripada hubungan antara penalti dan kinerja.
Akhirnya, metode MCMC sering membutuhkan seorang ahli untuk menilai konvergensi / pencampuran dan untuk memahami hasilnya.
sumber
Saya relatif baru dalam metode Bayesian, tetapi satu hal yang membuat saya jengkel adalah bahwa, sementara saya memahami dasar pemikiran prior (yaitu sains adalah upaya kumulatif, jadi untuk sebagian besar pertanyaan ada sejumlah pengalaman / pemikiran sebelumnya yang harus memberi tahu Anda interpretasi dari data), saya tidak suka bahwa pendekatan Bayesian memaksa Anda untuk mendorong subjektivitas ke awal analisis, menjadikan kontingen hasil akhir. Saya percaya ini bermasalah karena dua alasan: 1) beberapa pembaca yang kurang berpengalaman bahkan tidak akan memperhatikan prior, dan menafsirkan hasil Bayesian sebagai non-kontingen; 2) kecuali data mentah tersedia, sulit bagi pembaca untuk membingkai ulang hasilnya dalam prior subjektif mereka sendiri. Inilah sebabnya saya lebih suka rasio kemungkinan,
(Kritikus yang cerdik akan mencatat bahwa bahkan rasio kemungkinannya adalah "bergantung" dalam arti bahwa hal itu bergantung pada parameterisasi model yang dibandingkan; namun ini adalah fitur yang dimiliki bersama oleh semua metode, Frequentist, Bayesian, dan Likelihoodist)
sumber
Teori keputusan adalah teori yang mendasari operasi statistik. Masalahnya adalah menemukan prosedur yang baik (dalam beberapa hal) untuk menghasilkan keputusan dari data. Namun, jarang ada pilihan prosedur yang jelas, dalam arti meminimalkan kerugian yang diharapkan, sehingga kriteria lain harus diminta untuk memilih di antara mereka. Memilih prosedur yang dilakukan Bayes sehubungan dengan beberapa prioritas sebelumnya adalah salah satu dari kriteria ini, tetapi mungkin tidak selalu seperti yang Anda inginkan. Minimax mungkin lebih penting dalam beberapa kasus, atau tidak memihak.
Siapa pun yang bersikeras bahwa sering terjadi salah atau Bayesian atau salah sebagian besar mengungkapkan ketidaktahuan mereka tentang statistik.
sumber
Untuk beberapa waktu saya ingin mendidik diri saya lebih banyak tentang pendekatan Bayesian untuk pemodelan untuk melewati pemahaman sepintas saya (saya telah memberi kode sampler Gibbs dalam pekerjaan kursus pascasarjana, tetapi tidak pernah melakukan sesuatu yang nyata). Sepanjang jalan saya pikir beberapa karya Brian Dennis telah memprovokasi dan berharap saya bisa menemukan teman Bayesian (yang tidak ada di lemari) untuk membaca koran dan mendengar tandingan mereka. Jadi, inilah makalah yang saya maksudkan, tetapi kutipan yang selalu saya ingat adalah
http://faculty.washington.edu/skalski/classes/QERM597/papers/Dennis_1996.pdf http://classes.warnercnr.colostate.edu/nr575/files/2011/01/Lele-and-Dennis-2009.pdf
sumber
Apa masalah terbuka di Bayesian Statistics dari buletin triwulanan ISBA daftar 5 masalah dengan statistik bayesian dari berbagai pemimpin di lapangan, # 1 adalah, cukup membosankan, "Pemilihan model dan pengujian hipotesis".
sumber