Kemana perginya debat frequentist-Bayesian?

59

Dunia statistik dibagi antara frequentis dan Bayesians. Saat ini tampaknya semua orang melakukan keduanya. Bagaimana ini bisa terjadi? Jika pendekatan yang berbeda cocok untuk masalah yang berbeda, mengapa para pendiri statistik tidak melihat ini? Atau, apakah debat dimenangkan oleh Frequentists dan orang Bayesian subjektif sejati pindah ke teori keputusan?

JohnRos
sumber
13
Saya membuat CW ini pada premis bahwa tidak mungkin ada satu jawaban otoritatif atau terbaik. (Jangan ragu untuk membujuk salah satu mod jika tidak jika Anda tidak setuju!) Orang bisa berdebat untuk menutup pertanyaan dengan alasan bahwa itu berpotensi kontroversial, tetapi (IMHO) itu pada topik dan menarik. Namun, setiap balasan yang kontroversial, polemik, atau tidak didukung, jika muncul, akan dihapus tanpa penjelasan lebih lanjut.
whuber

Jawaban:

58

Saya sebenarnya agak tidak setuju dengan premis. Setiap orang adalah seorang Bayesian, jika mereka benar-benar memiliki distribusi probabilitas yang diberikan kepada mereka sebagai prior. Masalah muncul ketika mereka tidak melakukannya, dan saya pikir masih ada kesenjangan yang cukup besar pada topik itu.

Namun, setelah mengatakan itu, saya setuju bahwa semakin banyak orang yang cenderung melawan perang suci dan terus melakukan apa yang tampaknya tepat dalam situasi apa pun.

Saya akan mengatakan bahwa, ketika profesi meningkat, kedua belah pihak menyadari ada manfaat dalam pendekatan pihak lain. Bayesians menyadari bahwa mengevaluasi seberapa baik prosedur Bayesian akan dilakukan jika digunakan berulang-ulang (misalnya, apakah interval kredibel (CI) 95% ini benar-benar mengandung parameter sebenarnya sekitar 95% dari waktu?) Memerlukan pandangan yang sering. Tanpa ini, tidak ada kalibrasi "95%" itu ke nomor dunia nyata. Kekokohan? Pembuatan model melalui pemasangan berulang dll? Ide-ide yang muncul di dunia yang sering muncul, dan diadaptasi oleh orang Bayesian mulai akhir 1980-an. Frequentists menyadari bahwa regularisasi itu baik, dan menggunakannya secara umum akhir-akhir ini - dan prior Bayesian dapat dengan mudah diartikan sebagai regularisasi. Pemodelan nonparametrik melalui splines kubik dengan fungsi penalti? Hukuman Anda adalah prioritas saya! Sekarang kita semua bisa akrab.

Pengaruh besar lainnya, saya percaya, adalah peningkatan mengejutkan dalam ketersediaan perangkat lunak berkualitas tinggi yang akan membuat Anda melakukan analisis dengan cepat. Ini datang dalam dua bagian - algoritma, misalnya, Gibbs sampling dan Metropolis-Hastings, dan perangkat lunak itu sendiri, R, SAS, ... Saya mungkin lebih dari Bayesian murni jika saya harus menulis semua kode saya di C (saya hanya tidak akan punya waktu untuk mencoba hal lain), tetapi karena itu, saya akan menggunakan gam dalam paket mgcv di R setiap saat model saya terlihat seperti saya dapat memasukkannya ke dalam kerangka kerja tanpa terlalu banyak menekan, dan saya ahli statistik yang lebih baik untuk itu. Akrabkan dengan metode lawan Anda, dan sadari betapa banyak upaya yang dapat dihemat / kualitas yang lebih baik yang dapat diberikan untuk menggunakannya dalam beberapa situasi, meskipun mereka mungkin tidak cocok 100% ke dalam kerangka kerja default Anda untuk memikirkan masalah,

jbowman
sumber
5
@ Dikran: Saya setuju, dengan peringatan bahwa saya pribadi akan berdalih dengan kata pilihan lawan . :)
kardinal
2
@ cardinal Saya tidak tahu, membubarkan rekan kerja bisa menyenangkan (selama Anda berdua tahu lebih baik daripada benar-benar bersungguh-sungguh
!;
3
@Dikran - Terima kasih atas pengertiannya! Aku juga tidak merasa "lawan" adalah kata yang tepat, tetapi aku memasukkannya ke sana sebagian hanya untuk bersenang-senang, dan sebagian lagi karena aku tidak bisa memikirkan kata yang lebih baik yang masih mempertahankan semacam pertentangan.
jbowman
5
@jbowman: Perhatikan bahwa statistik Bayesian a-la Good, Lindley atau DeFinetti, berarti bahwa prior adalah subjektif / mental dan bukan objektif / fisik. Untuk alasan itu, saya tidak setuju dengan: "... Semua orang adalah Bayesian". Inilah sebabnya mengapa Robbins harus menggunakan istilah "Empirical Bayes" ketika memperkenalkan gagasan "novel" dari seorang yang sering berkunjung. Saya akan setuju, bahwa hari ini, menggunakan skema pengambilan sampel bertingkat, dengan demikian memiliki frekuensi yang sering, akan cukup untuk memenuhi syarat sebagai "statistik Bayesian".
JohnRos
2
@JohnRos - apa yang saya pikirkan adalah yang lebih klasik "berapa probabilitas Anda menderita TBC mengingat Anda dinyatakan positif dengan tes TB?" situasi. (Saya berasumsi bahwa) beberapa ahli statistik yang sering akan keberatan dengan penggunaan apa pun tingkat TB awal yang sesuai adalah sebagai probabilitas sebelumnya dan memperbaruinya dengan kemungkinan tes. Tentu saja, mereka masih akan keberatan dengan gagasan mereka sebelumnya subjektif, dan saya bisa melihat garis penalaran di sisi lain yang akan mengklaim itu subjektif meskipun data di belakangnya, jadi poin diambil (+1).
jbowman
35

Ini adalah pertanyaan yang sulit dijawab. Jumlah orang yang benar-benar melakukan keduanya masih sangat terbatas. Bayesian hard core membenci para pengguna statistik arus utama karena menggunakan nilai- , sebuah statistik yang tidak masuk akal, tidak konsisten secara internal untuk masyarakat Bayesia; dan ahli statistik arus utama tidak tahu metode Bayesian dengan cukup baik untuk mengomentari mereka. Dalam terang ini, Anda akan melihat banyak kritik terhadap pengujian signifikansi hipotesis nol dalam literatur Bayesian (berkisar sejauh hampir biologi murni atau jurnal psikologi murni), dengan sedikit atau tidak ada tanggapan dari pengarusutamaan.p

Ada manifestasi yang saling bertentangan mengenai "siapa yang memenangkan debat" dalam profesi statistik. Di satu sisi, komposisi departemen statistik rata-rata adalah bahwa di sebagian besar tempat, Anda akan menemukan 10-15 pengarus utama vs. 1-2 Bayesian, meskipun beberapa departemen murni Bayesian, tanpa pengarusutamaan sama sekali, kecuali mungkin untuk posisi konsultasi (Harvard, Duke, Carnegie Mellon, British Columbia, Montreal di Amerika Utara; Saya kurang akrab dengan adegan Eropa). Di sisi lain, Anda akan melihat bahwa dalam jurnal seperti JASA atau JRSS, mungkin 25-30% makalah adalah Bayesian. Di satu sisi, kebangkitan Bayesian mungkin seperti ledakan makalah ANOVA pada 1950-an: saat itu, orang berpikir bahwa hampir semua masalah statistik dapat dibingkai sebagai masalah ANOVA; sekarang juga,

Perasaan saya adalah bahwa area terapan tidak repot mencari tahu detail filosofis, dan hanya pergi dengan apa pun yang lebih mudah untuk dikerjakan. Metodologi Bayesian terlalu rumit: di atas statistik, Anda juga perlu mempelajari seni perhitungan (menyiapkan sampler, memblokir, diagnostik konvergensi, bla-bla-bla) dan bersiaplah untuk mempertahankan prior Anda (harus Anda gunakan prior obors, atau Anda harus menggunakan prior informatif jika bidang telah cukup banyak menentukan pada kecepatan cahaya menjadi 3e8 m / s, atau bahkan apakah pilihan sebelumnya mempengaruhi apakah posterior Anda akan tepat atau tidak). Jadi di sebagian besar aplikasi medis atau psikologi atau ekonomi, Anda akan melihat pendekatan arus utama dalam makalah yang ditulis oleh para peneliti substantif,

Salah satu area di mana, saya pikir, kerangka kerja Bayesian masih akan datang adalah diagnostik model - dan itu adalah area yang penting bagi para praktisi. Di dunia Bayesian, untuk mendiagnosis model, Anda perlu membuat model yang lebih rumit dan memilih mana yang lebih sesuai dengan faktor Bayesian atau BIC. Jadi, jika Anda tidak menyukai asumsi normalitas untuk regresi linier Anda, Anda dapat membangun regresi dengan kesalahan Mahasiswa, dan biarkan data menghasilkan perkiraan tingkat kebebasan, atau Anda bisa menjadi sangat suka dan memiliki proses Dirichlet untuk Anda istilah kesalahan dan lakukan beberapa lompatan MH antara model yang berbeda. Pendekatan arus utama adalah membangun plot QQ dari residual mahasiswa dan menghilangkan pencilan, dan ini, sekali lagi, jauh lebih sederhana.

Saya mengedit bab dalam buku ini - lihat http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary . Ini adalah makalah yang sangat tipikal, yang memberikan sekitar 80 referensi tentang debat ini, semuanya mendukung sudut pandang Bayesian. (Saya meminta penulis untuk memperpanjangnya dalam versi revisi, yang mengatakan banyak tentang itu :)). Jim Berger dari Duke, salah satu teoretikus Bayesian terkemuka, memberikan sejumlah kuliah, dan menulis sejumlah artikel yang sangat bijaksana tentang topik tersebut.

Tugas
sumber
14

Ada alasan bagus untuk tetap memiliki keduanya, yaitu pengrajin yang baik akan ingin memilih alat terbaik untuk tugas yang dihadapi, dan kedua metode Bayesian dan sering memiliki aplikasi di mana mereka adalah alat terbaik untuk pekerjaan itu.

Namun, seringkali alat yang salah untuk pekerjaan itu digunakan karena statistik frequentist lebih dapat menerima pendekatan "buku masak statistik" yang membuat mereka lebih mudah untuk diterapkan dalam sains dan teknik daripada rekan-rekan Bayesian mereka, meskipun metode Bayesian memberikan jawaban yang lebih langsung kepada pertanyaan yang diajukan (yang umumnya dapat kita simpulkan dari sampel data tertentu yang sebenarnya kita miliki). Saya tidak terlalu mendukung hal ini karena pendekatan "buku masak" mengarah pada penggunaan statistik tanpa pemahaman yang kuat tentang apa yang sebenarnya Anda lakukan, itulah sebabnya hal-hal seperti kesalahan nilai-p muncul terus-menerus.

Namun, seiring berjalannya waktu, perangkat lunak untuk pendekatan Bayesian akan meningkat dan mereka akan digunakan lebih sering seperti yang dikatakan jbowman.

Saya seorang Bayesian oleh kecenderungan (tampaknya lebih masuk akal bagi saya daripada pendekatan frequentist), namun saya akhirnya menggunakan statistik frequentist di makalah saya, sebagian karena saya akan mengalami masalah dengan pengulas jika saya menggunakan statistik Bayesian karena mereka akan menjadi "non-standar".

Akhirnya (agak lidah di pipi; o), mengutip Max Plank "Sebuah kebenaran ilmiah baru tidak menang dengan meyakinkan lawan-lawannya dan membuat mereka melihat cahaya, tetapi lebih karena lawan-lawannya akhirnya mati, dan generasi baru tumbuh yang akrab dengan itu. "

Dikran Marsupial
sumber
10

Saya tidak berpikir Frequentists dan Bayesians memberikan jawaban berbeda untuk pertanyaan yang sama. Saya pikir mereka siap untuk menjawab pertanyaan yang berbeda . Karena itu, saya pikir tidak masuk akal untuk berbicara banyak tentang kemenangan satu pihak, atau bahkan berbicara tentang kompromi.

Pertimbangkan semua pertanyaan yang mungkin ingin kami tanyakan. Banyak hanya pertanyaan mustahil ("Apa nilai sebenarnya dari ?"). Lebih bermanfaat untuk mempertimbangkan bagian dari pertanyaan-pertanyaan ini yang dapat dijawab dengan berbagai asumsi. Subset yang lebih besar adalah pertanyaan yang bisa dijawab di mana Anda mengizinkan diri Anda untuk menggunakan prior. Sebut set BF ini. Ada subset BF, yang merupakan set pertanyaan yang tidak bergantung pada sebelumnya. Sebut subset kedua ini F. F adalah subset dari BF. Tentukan B = BF \ B.θ

Namun, kami tidak dapat memilih pertanyaan mana yang akan dijawab. Untuk membuat kesimpulan yang berguna tentang dunia, kadang-kadang kita harus menjawab pertanyaan yang ada di B dan itu berarti menggunakan sebelumnya.

Idealnya, dengan diberikan estimator Anda akan melakukan analisis menyeluruh. Anda mungkin menggunakan prior, tetapi juga akan keren jika Anda bisa membuktikan hal-hal bagus tentang estimator Anda yang tidak bergantung pada prior. Itu tidak berarti Anda dapat membuang yang sebelumnya, mungkin pertanyaan yang sangat menarik memerlukan yang sebelumnya.

Semua orang setuju tentang bagaimana menjawab pertanyaan dalam F. Kekhawatirannya adalah apakah pertanyaan yang benar-benar 'menarik' ada di F atau di B?

P(|S)=0P(+|H)=0.05

Kami memiliki selembar kartu dan mesin penguji akan menulis + atau - di satu sisi kartu. Bayangkan, jika Anda mau, bahwa kita memiliki oracle yang entah bagaimana mengetahui kebenaran, dan oracle ini menulis keadaan sebenarnya, H atau S, di sisi lain kartu sebelum memasukkan kartu ke dalam amplop.

Sebagai dokter yang terlatih secara statistik, apa yang dapat kita katakan tentang kartu di envolope sebelum kita membuka kartu? Pernyataan berikut dapat dibuat (ini dalam F di atas):

  • P(+|S)=1
  • P(|H)=0.95
  • P((,S)(+,H))0.95

P((,S))P((+,H))P(S)

Ini sejauh yang bisa kita lakukan sejauh ini. Sebelum membuka amplop , kita dapat membuat pernyataan yang sangat positif tentang keakuratan tes. Ada (setidaknya) kemungkinan 95% bahwa hasil tes cocok dengan kebenaran.

Tapi apa yang terjadi ketika kita benar-benar membuka kartu? Mengingat bahwa hasil tes positif (atau negatif), apa yang dapat kita katakan tentang apakah mereka sehat atau sakit?

P(S)P(S)

Dalam contoh sederhana ini, jelas bahwa setiap orang dengan hasil tes negatif adalah sehat. Tidak ada negatif palsu, dan karenanya setiap ahli statistik akan dengan senang hati mengirim pasien itu pulang. Karena itu, tidak masuk akal untuk membayar saran ahli statistik kecuali hasil tesnya positif .

Tiga poin di atas benar, dan cukup sederhana. Tapi mereka juga tidak berguna! Pertanyaan yang sangat menarik, dalam model yang dibuat diakui ini, adalah:

P(S|+)

P(S)

Saya tidak menyangkal ini mungkin model yang terlalu disederhanakan, tetapi itu menunjukkan bahwa jika kita ingin membuat pernyataan yang berguna tentang kesehatan pasien-pasien itu, kita harus mulai dengan beberapa kepercayaan sebelumnya tentang kesehatan mereka.

Aaron McDaid
sumber
2
H+5%95%P(|S)=0.95P(|S)=0
1
P(|H)=0.95P(|S)=0.95
2
P(S)+20P(S)
1
P(S)P(S)
6

Seperti yang akan Anda lihat, ada cukup banyak debat Bayesian yang sering terjadi. Bahkan, saya pikir ini lebih panas dari sebelumnya, dan kurang dogmatis. Anda mungkin tertarik pada blog saya: http://errorstatistics.com

Mayo
sumber
2
Saya kenal dengan karya Anda melalui tulisan Shalizi & Gelman. Saya pasti akan mengikuti blog. Namun saya bertanya-tanya, apakah "Bayes" Gelman sama dengan "Bayes"
DeFinetti
1

Banyak orang (di luar pakar spesialis) yang berpikir bahwa mereka sering mengunjungi mereka sebenarnya adalah Bayesian. Ini membuat perdebatan sedikit tidak ada gunanya. Saya pikir Bayesianisme menang, tetapi masih ada banyak orang Bayesian yang berpikir bahwa mereka adalah orang-orang yang sering. Ada beberapa orang yang berpikir bahwa mereka tidak menggunakan prior dan karenanya mereka pikir mereka sering. Ini logika yang berbahaya. Ini tidak begitu banyak tentang prior (prior uniform atau non-uniform), perbedaan nyata lebih halus.

(Saya tidak secara resmi di departemen statistik; latar belakang saya adalah matematika dan ilmu komputer. Saya menulis karena kesulitan yang saya miliki untuk mencoba membahas 'debat' ini dengan non-ahli statistik lainnya, dan bahkan dengan beberapa karir awal ahli statistik.)

MLE sebenarnya adalah metode Bayesian. Beberapa orang akan mengatakan "Saya seorang yang sering karena saya menggunakan MLE untuk memperkirakan parameter saya". Saya telah melihat ini dalam literatur peer-review. Ini omong kosong dan didasarkan pada mitos ini (tidak terungkap, tetapi tersirat) bahwa frequentist adalah seseorang yang menggunakan seragam sebelum bukannya sebelumnya tidak seragam.

μ=0θ

XN(μ=0,σ2=θ)

xθθx

f(x,θ)=Pσ2=θ(X=x)=12πθex22θ

xθ

Peta panas

θθx

Perbedaan antara irisan horizontal dan vertikal sangat penting, dan saya menemukan analogi ini membantu saya untuk memahami pendekatan bias yang sering dilakukan .

Sebuah Bayesian adalah seseorang yang mengatakan

θf(x,θ)

g(θ)

θf(x,θ)g(θ)

Jadi Bayesian memperbaiki x dan melihat irisan vertikal yang sesuai dalam plot kontur tersebut (atau dalam plot varian yang menyertakan sebelumnya). Dalam irisan ini, area di bawah kurva tidak harus 1 (seperti yang saya katakan sebelumnya). Interval kredibel Bayesian 95% (CI) adalah interval yang mengandung 95% area yang tersedia. Misalnya, jika area tersebut 2, maka area di bawah Bayesian CI harus 1,9.

θ

θ

N(μ=0,σ2=θ)θx3θ+3θ

θ

Ini bukan satu-satunya cara untuk membangun CI yang sering, bahkan bukan yang bagus (sempit), tetapi tahan sebentar saja.

Cara terbaik untuk menafsirkan kata 'interval' bukan sebagai interval pada baris 1-d, tetapi untuk menganggapnya sebagai area pada bidang 2-d di atas. 'Interval' adalah bagian dari bidang 2-d, bukan garis 1-d. Jika seseorang mengusulkan 'interval' seperti itu, maka kita harus menguji apakah 'interval' itu valid pada tingkat kepercayaan / kredibilitas 95%.

Seorang frequentist akan memeriksa validitas 'interval' ini dengan mempertimbangkan setiap irisan horizontal pada gilirannya dan melihat area di bawah kurva. Seperti yang saya katakan sebelumnya, area di bawah kurva ini akan selalu menjadi satu. Persyaratan penting adalah bahwa area dalam 'interval' setidaknya 0,95.

Bayesian akan memeriksa validitas dengan melihat potongan vertikal. Sekali lagi, area di bawah kurva akan dibandingkan dengan subarea yang berada di bawah interval. Jika yang terakhir setidaknya 95% dari yang pertama, maka 'interval' adalah interval kredibel Bayesian 95% yang valid.

Sekarang kita tahu bagaimana menguji apakah interval tertentu 'valid', pertanyaannya adalah bagaimana kita memilih opsi terbaik di antara opsi yang valid. Ini bisa menjadi seni hitam, tetapi umumnya Anda menginginkan interval tersempit. Kedua pendekatan cenderung setuju di sini - irisan vertikal dipertimbangkan dan tujuannya adalah untuk membuat interval sesempit mungkin dalam setiap irisan vertikal.

Saya belum mencoba untuk menentukan interval kepercayaan frequentist yang sesempit mungkin dalam contoh di atas. Lihat komentar oleh @ cardinal di bawah ini untuk contoh interval yang lebih sempit. Tujuan saya bukan untuk menemukan interval terbaik, tetapi untuk menekankan perbedaan antara irisan horizontal dan vertikal dalam menentukan validitas. Interval yang memenuhi persyaratan interval kepercayaan 95% sering tidak akan memenuhi persyaratan interval kredibel Bayesian 95%, dan sebaliknya.

Kedua pendekatan menginginkan interval yang sempit, yaitu ketika mempertimbangkan satu irisan vertikal kami ingin membuat interval (1-d) dalam irisan itu menjadi sesempit mungkin. Perbedaannya adalah dalam bagaimana 95% ditegakkan - seorang frequentist hanya akan melihat interval yang diusulkan di mana 95% dari setiap daerah irisan horizontal berada di bawah interval, sedangkan Bayesian akan bersikeras bahwa setiap irisan vertikal sedemikian rupa sehingga 95% dari luasnya adalah di bawah interval.

Banyak non-ahli statistik tidak memahami ini dan mereka hanya fokus pada irisan vertikal; ini membuat mereka orang Bayesia bahkan jika mereka berpikir sebaliknya.

Aaron McDaid
sumber
3
(-1) Saya percaya posting ini menunjukkan beberapa kesalahpahaman mendasar pada beberapa poin. Sulit untuk mengetahui di mana pun memulai.
kardinal
1
Mari alamat yang muncul untuk membentuk sebagian besar posting ini. Dalam contoh yang diberikan, X2/θχ12θ(θ^,θ^u)P(θ(θ^,θ^u))=1α θXX2/θ
1
(lanjt.) Satu pilihan adalah [X2/q1α,)qbbχ12[X2/q1α/2,X2/qα/2], interval terakhir ini bahkan bukan yang terpendek, yang dapat ditemukan dengan prosedur numerik sederhana. Singkatnya , premis utama dari argumen dalam jawaban tampaknya benar-benar kehilangan intinya.
kardinal
Hai @ cardinal, saya mengerti poin Anda dalam dua komentar terakhir Anda. Bahkan, saya pikir poin Anda konsisten dengan apa yang saya katakan :-) OK, Ada sejumlah cara berbeda untuk membangun interval kepercayaan yang sering terjadi. Anda menerima metode yang saya jelaskan valid. Dan Anda (cukup) menunjukkan bahwa metode saya bukan yang tersempit. Saya pikir komentar pertama Anda tidak terlalu membantu.
Aaron McDaid
2
@ kardinal, pada pikiran kedua saya menerima bahwa akhir dari jawaban saya tidak membantu dan pada dasarnya salah, saya akan membereskannya. Ini mengalihkan perhatian dari poin utama saya, yaitu bahwa banyak orang di luar departemen statistik yang memiliki pendapat kuat tentang hal ini tidak menghargai perbedaan mendasar antara kedua pendekatan: kedua pendekatan terlihat memiliki area yang baik di bawah kurva (setidaknya 95% ), tetapi perbedaannya adalah apakah akan mengambil irisan horizontal (Frequentist) atau vertikal (Bayesian) melalui peta panas. Apakah saya ada di sini, dan apakah ada gunanya menyampaikan hal ini di sini?
Aaron McDaid