Ketika seseorang menjadi tertarik pada statistik, dikotomi "Frequentist" vs "Bayesian" segera menjadi biasa (dan siapa yang belum membaca The Signal and the Noise , karya Nate Silver ?). Dalam pembicaraan dan kursus pengantar, sudut pandangnya sangat sering ( MLE , value), tetapi cenderung ada sebagian kecil dari waktu yang didedikasikan untuk mengagumi formula Bayes dan menyentuh gagasan distribusi sebelumnya , biasanya secara tangensial.
Nada yang digunakan untuk membahas statistik Bayes berosilasi antara penghormatan terhadap dasar-dasar konseptualnya, dan sedikit skeptisisme mengenai jurang antara tujuan-tujuan mulia, dan kesewenang-wenangan dalam pemilihan distribusi sebelumnya, atau akhirnya menggunakan matematika frequentist.
Kalimat-kalimat seperti "jika Anda seorang Bayesian yang keras ..." banyak.
Pertanyaannya adalah, Siapakah orang Bayesian hari ini? Apakah mereka beberapa institusi akademis terpilih di mana Anda tahu bahwa jika Anda pergi ke sana Anda akan menjadi seorang Bayesian? Jika demikian, apakah mereka secara khusus dicari? Apakah kita merujuk pada beberapa ahli statistik dan matematikawan yang disegani, dan jika demikian siapa mereka?
Apakah mereka ada seperti ini, "Bayesians" murni ini? Apakah mereka akan dengan senang hati menerima label? Apakah itu selalu merupakan perbedaan yang menyanjung? Apakah mereka ahli matematika dengan slide khusus dalam rapat, kehilangan nilai dan interval kepercayaan, mudah terlihat pada brosur?
Berapa banyak ceruk menjadi "Bayesian"? Apakah kita merujuk pada minoritas ahli statistik?
Atau apakah Bayesian-isme saat ini disamakan dengan aplikasi pembelajaran mesin?
... Atau bahkan lebih mungkin, bukankah statistik Bayesian bukan sekadar cabang statistik, melainkan sebuah gerakan epistemologis yang mentransformasikan kecenderungan perhitungan probabilitas ke dalam filsafat sains? Dalam hal ini, semua ilmuwan pada hakekatnya adalah Bayesian ... tetapi tidak akan ada yang namanya ahli statistik Bayesian murni yang tidak dapat ditembus oleh teknik-teknik yang sering terjadi (atau kontradiksi).
sumber
Jawaban:
Saya akan menjawab pertanyaan Anda:
Siapa pun yang melakukan analisis data Bayesian dan mengidentifikasi diri sebagai "Bayesian". Sama seperti seorang programmer adalah seseorang yang memprogram dan mengidentifikasi diri sebagai "programmer". Sedikit perbedaan adalah bahwa untuk alasan historis, Bayesian memiliki konotasi ideologis, karena argumen yang sering memanas antara para pendukung interpretasi probabilitas "frequentist" dan para pendukung interpretasi probabilitas "Bayesian".
Tidak, sama seperti bagian statistik lainnya, Anda hanya perlu buku yang bagus (dan mungkin guru yang baik).
Analisis data Bayesian adalah alat yang sangat berguna ketika melakukan pemodelan statistik, yang saya bayangkan adalah keterampilan yang cukup dicari, (bahkan jika perusahaan mungkin tidak secara spesifik mencari "Bayesians").
Ada banyak ahli statistik terhormat yang saya percaya akan menyebut diri mereka orang Bayesian , tetapi mereka bukan orang Bayesian.
Itu agak seperti bertanya "Apakah programmer murni ini ada"? Ada artikel lucu yang disebut 46656 Varietas Bayesians , dan tentu saja ada argumen sehat di antara "Bayesians" mengenai banyak masalah mendasar. Sama seperti programmer dapat berdebat tentang kelebihan teknik pemrograman yang berbeda. (BTW, program programmer murni di Haskell).
Ada yang melakukannya, ada yang tidak. Ketika saya menemukan analisis data Bayesian, saya pikir itu yang terbaik sejak roti irisan (saya masih melakukannya) dan saya senang menyebut diri saya seorang "Bayesian" (paling tidak untuk membuat marah orang-orang p-value di departemen saya). Saat ini saya tidak suka istilah itu, saya pikir itu mungkin mengasingkan orang karena membuat analisis data Bayesian terdengar seperti semacam kultus, yang bukan, bukan metode yang berguna untuk memiliki dalam kotak peralatan statistik Anda.
Nggak! Sejauh yang saya tahu, istilah "Bayesian" diperkenalkan oleh ahli statistik terkenal Fisher sebagai istilah yang merendahkan. Sebelum itu disebut "probabilitas terbalik" atau hanya "probabilitas".
Nah, ada konferensi dalam statistik Bayesian, dan saya tidak berpikir mereka memasukkan banyak nilai-p. Apakah Anda akan menemukan slide yang aneh akan tergantung pada latar belakang Anda ...
Saya masih berpikir sebagian kecil ahli statistik berurusan dengan statistik Bayesian, tetapi saya juga berpikir proporsinya bertambah.
Tidak, tetapi model Bayesian banyak digunakan dalam pembelajaran mesin. Berikut ini adalah buku pembelajaran mesin yang hebat yang menyajikan pembelajaran mesin dari perspektif Bayesian / probibalistic: http://www.cs.ubc.ca/~murphyk/MLbook/
Harapan itu menjawab sebagian besar pertanyaan :)
Memperbarui:
Yang membedakan statistik Bayesian adalah penggunaan model Bayesian :) Berikut adalah putaran saya tentang apa model Bayesian adalah :
Model Bayesian adalah model statistik di mana Anda menggunakan probabilitas untuk mewakili semua ketidakpastian dalam model, baik ketidakpastian tentang output tetapi juga ketidakpastian mengenai input (alias parameter) ke model. Keseluruhan teorema sebelum / posterior / Bayes mengikuti ini, tetapi menurut saya, menggunakan probabilitas untuk semuanya adalah apa yang membuatnya Bayesian (dan memang kata yang lebih baik mungkin hanya akan menjadi sesuatu seperti model probabilistik).
Sekarang, model Bayesian mungkin sulit untuk dipasangkan , dan ada sejumlah teknik komputasi yang berbeda yang digunakan untuk ini. Tetapi teknik-teknik ini tidak dalam Bayesian sendiri. Untuk memberi nama pada beberapa teknik komputasi:
Itu seharusnya Ronald Fisher. Makalah Kapan kesimpulan Bayesian menjadi "Bayesian"? memberikan sejarah istilah "Bayesian".
sumber
Bayesians adalah orang-orang yang mendefinisikan probabilitas sebagai representasi numerik dari kemungkinan masuknya beberapa proposisi. Frequentists adalah orang-orang yang mendefinisikan probabilitas sebagai mewakili frekuensi jangka panjang. Jika Anda hanya senang dengan salah satu dari definisi ini maka Anda adalah orang Bayesian atau yang sering. Jika Anda puas dengan keduanya, dan menggunakan definisi yang paling tepat untuk tugas yang Anda hadapi, maka Anda adalah seorang ahli statistik! ; o) Pada dasarnya, itu bermuara pada definisi probabilitas, dan saya berharap bahwa sebagian besar ahli statistik yang bekerja akan dapat melihat manfaat dan kerugian dari kedua pendekatan.
Skeptisisme juga menuju ke arah lain. Frequentism ditemukan dengan tujuan mulia menghilangkan subyektivitas pemikiran yang ada pada probabilitas dan statistik. Namun, subjektivitas masih ada (misalnya dalam menentukan tingkat signifikansi yang sesuai dalam pengujian hipotesis), tetapi itu tidak dibuat secara eksplisit, atau sering hanya diabaikan .
sumber
Andrew Gelman , misalnya, seorang profesor statistik dan ilmu politik di Universitas Columbia, adalah seorang Bayesian terkemuka.
Saya menduga sebagian besar rekan ISBA mungkin akan menganggap diri mereka juga orang Bayesian.
Secara umum, topik penelitian berikut biasanya mencerminkan pendekatan Bayesian. Jika Anda membaca makalah tentang mereka, kemungkinan penulis akan menggambarkan diri mereka sebagai "Bayesian"
sumber
Hari ini, kita semua orang Bayesian , tetapi ada dunia di luar dua kubu ini: probabilitas algoritmik. Saya tidak yakin apa referensi standar tentang hal ini, tetapi ada makalah yang indah oleh Kolmogorov tentang kompleksitas algoritmik: AN Kolmogorov, Tiga pendekatan untuk definisi konsep "kuantitas informasi" , Masalah. Peredachi Inf., 1965, Volume 1, Edisi 1, 3–11. Saya yakin ada terjemahan bahasa Inggris.
Dalam makalah ini ia mendefinisikan kuantitas informasi dalam tiga cara: kombinatorial, probabilistik dan (baru) algoritmik. Combinatorial langsung memetakan ke frequentist, Probabilist tidak secara langsung berhubungan dengan Bayesian, tetapi itu kompatibel dengannya.
UPDATE: Jika Anda tertarik pada filosofi probabilitas maka saya ingin menunjukkan sebuah karya yang sangat menarik " Asal dan warisan Grundbegriffe Kolmogorov"oleh Glenn Shafer dan Vladimir Vovk. Kami agak lupa segalanya sebelum Kolmogorov, dan ada banyak hal yang terjadi sebelum pekerjaan mani-nya. Di sisi lain, kita tidak tahu banyak tentang pandangan filosofisnya. Pada umumnya berpikir bahwa dia adalah seorang yang sering, misalnya. Kenyataannya bahwa ia tinggal di Uni Soviet pada 1930-an, di mana cukup berbahaya untuk menjelajah ke filsafat, secara harfiah, Anda bisa mendapat masalah eksistensial, yang dilakukan oleh beberapa ilmuwan (berakhir di penjara GULAG). , dia semacam dipaksa untuk secara implisit menunjukkan bahwa dia adalah seorang yang sering. Saya pikir pada kenyataannya dia bukan hanya ahli matematika, tetapi dia adalah seorang ilmuwan, dan memiliki pandangan yang kompleks tentang penerapan teori probabilitas ke kenyataan.
Ada juga makalah lain oleh Vovk tentang pendekatan algoritmik Kolmogorov terhadap keacakan: kontribusi Kolmogorov pada fondasi probabilitas
Vovk telah menciptakan pendekatan game-theoretic untuk probabilitas - juga sangat menarik.
UPDATE 2: Inilah Bayesian, sebenarnya, seorang profesor dari salah satu universitas di Washington, DC. Dia sedang berusaha menunjukkan bahwa kita harus memilih politisi yang memperbarui kepercayaan mereka berdasarkan pengalaman, pengamatan baru. Di sini adalah keyakinan posterior , setelah pengalaman baru ; adalah yang sebelumnya. Dia mencoba menjelaskan hal ini kepada peserta "Rally for Fear" Colbert / Stuart.B E P ( E | B )P(B|E) B E P(E|B)
PEMBARUAN 3:
Saya juga ingin menunjukkan sesuatu dalam karya asli Kolmogorov yang tidak umum diketahui karena alasan tertentu (atau mudah dilupakan) oleh para praktisi. Dia memiliki bagian tentang menghubungkan teori dengan kenyataan. Secara khusus, ia menetapkan dua syarat untuk menggunakan teori:
Ada interpretasi yang berbeda dari kondisi ini, tetapi kebanyakan orang akan setuju bahwa ini bukan pandangan frequentist murni. Kolmogorov menyatakan bahwa ia mengikuti pendekatan von Mises sampai batas tertentu, tetapi ia tampaknya mengindikasikan bahwa segala sesuatunya tidak sesederhana mungkin. Saya sering memikirkan kondisi B, dan tidak bisa sampai pada kesimpulan yang stabil, itu terlihat sedikit berbeda setiap kali saya memikirkannya.
sumber
Bayesian "inti" paling keras yang saya tahu adalah Edwin Jaynes , meninggal pada tahun 1998. Saya berharap lebih lanjut "bayaran keras" Bayesian dapat ditemukan di antara murid-muridnya, terutama rekan penulis anumerta dari karya utamanya Probability Theory: The Logika Ilmu Pengetahuan , Larry Bretthorst. Bayesian bersejarah terkenal lainnya termasuk Harold Jeffreys dan Leonard Savage . Walaupun saya tidak memiliki gambaran lengkap tentang lapangan, kesan saya adalah bahwa popularitas metode Bayesian yang lebih baru (terutama dalam pembelajaran mesin) bukan karena keyakinan filosofis yang mendalam, tetapi posisi pragmatis bahwa metode Bayesian terbukti bermanfaat dalam banyak aplikasi. Saya pikir tipikal untuk posisi ini adalah Andrew Gelman .
sumber
Saya tidak tahu siapa orang Bayesian (walaupun saya kira saya harus memiliki distribusi sebelumnya untuk itu), tetapi saya tahu siapa mereka.
Mengutip yang terkemuka, sekarang berangkat Bayesian, DV Lindley, "tidak ada yang kurang Bayesian daripada Bayesian empiris". Bagian empiris Bayes dari Metode Bayesian: Pendekatan Ilmu Sosial dan Perilaku, Edisi Kedua oleh Jeff Gill . Berarti saya mengira bahwa bahkan "Frequentists" berpikir tentang model apa yang masuk akal (pilihan bentuk model dalam beberapa hal merupakan prioritas), sebagai lawan dari Bayesians empiris yang benar-benar mekanis tentang segala sesuatu.
Saya pikir dalam praktiknya tidak ada banyak perbedaan dalam hasil analisis statistik yang dilakukan oleh eselon top Bayesian dan Frequentists. Apa yang menakutkan adalah ketika Anda melihat seorang ahli statistik berkualitas rendah yang mencoba untuk secara kaku memola dirinya sendiri (tidak pernah mengamatinya dengan seorang wanita) setelah model peran ideologisnya dengan kemurnian ideologis absolut, dan melakukan pendekatan analisis persis seperti yang ia pikir akan menjadi panutannya, tetapi tanpa kualitas pemikiran dan penilaian yang dimiliki panutan. Itu bisa menghasilkan analisis dan rekomendasi yang sangat buruk. Saya pikir ideolog yang sangat keras, tetapi berkualitas rendah, jauh lebih umum di kalangan orang Bayesia daripada yang sering. Ini khususnya berlaku dalam Analisis Keputusan.
sumber
Saya mungkin terlambat untuk diskusi ini bagi siapa pun untuk memperhatikan hal ini, tetapi saya pikir itu memalukan bahwa tidak ada yang menunjukkan fakta bahwa perbedaan paling penting antara pendekatan Bayesian dan Frequentist adalah bahwa orang Bayesian (kebanyakan) menggunakan metode yang menghormati prinsip kemungkinan sedangkan Frequentists hampir selalu tidak. Prinsip likelihood mengatakan bahwa bukti yang relevan dengan parameter model statistik yang diminati seluruhnya terkandung dalam fungsi likelihood yang relevan.
Kaum frekuensi yang peduli dengan teori atau filosofi statistik harus lebih peduli dengan argumen tentang validitas prinsip kemungkinan daripada tentang argumen tentang perbedaan antara frekuensi dan interpretasi keyakinan parsial dari probabilitas dan tentang keinginan probabilitas sebelumnya. Sementara dimungkinkan untuk interpretasi yang berbeda dari probabilitas untuk hidup berdampingan tanpa konflik dan bagi beberapa orang untuk memilih untuk memasok sebelum tanpa mengharuskan orang lain untuk melakukannya, jika prinsip kemungkinan benar dalam arti positif atau normatif maka banyak metode Frequentist kehilangan klaim mereka untuk optimalitas. Serangan-serangan yang sering terhadap prinsip kemungkinan sangat keras karena prinsip itu merusak pandangan dunia statistik mereka, tetapi sebagian besar serangan itu meleset dari sasarannya ( http://arxiv.org/abs/1507.08394).
sumber
Anda mungkin percaya Anda seorang Bayesian, tetapi Anda mungkin salah ... http://www.rmm-journal.de/downloads/Article_Senn.pdf
Bayesians memperoleh distribusi probabilitas hasil yang menarik diberikan kepercayaan sebelumnya / informasi sebelumnya. Bagi seorang Bayesian, distribusi ini (dan rangkumannya) adalah hal yang menarik bagi kebanyakan orang. Berbeda dengan hasil-hasil "kerap" yang memberi tahu Anda peluang melihat hasil sebagai atau lebih ekstrem daripada yang diamati mengingat hipotesis nol itu benar ( p-value) atau estimasi interval untuk parameter yang menarik, 95% di antaranya akan berisi nilai sebenarnya jika Anda bisa melakukan pengambilan sampel berulang (interval kepercayaan).
Distribusi Bayesian sebelumnya adalah kontroversi karena mereka adalah sebelum ANDA. Tidak ada "benar" sebelumnya. Kebanyakan orang Bayesian pragmatis mencari bukti eksternal yang dapat digunakan untuk prior dan kemudian mengabaikan atau memodifikasi ini berdasarkan apa yang diharapkan "masuk akal" untuk kasus tertentu. Misalnya, prior skeptis mungkin memiliki "benjolan" probabilitas pada kasus nol - "Seberapa baik data yang diperlukan untuk membuat saya berubah pikiran / mengubah praktik saat ini?" Sebagian besar juga akan melihat kekuatan kesimpulan untuk prior yang berbeda.
Ada sekelompok orang Bayesian yang melihat ke dalam "referensi" prior yang memungkinkan mereka untuk membuat kesimpulan yang tidak "dipengaruhi" oleh kepercayaan sebelumnya dan sehingga mereka mendapatkan pernyataan probabilistik dan perkiraan interval yang memiliki sifat "frequentist".
Ada juga kelompok "Hardcore Bayesians" yang mungkin menganjurkan tidak memilih model (semua model salah), dan yang mungkin berpendapat bahwa analisis eksploratori pasti akan memengaruhi prior Anda sehingga tidak boleh dilakukan. Ada beberapa yang radikal meskipun ...
Di sebagian besar bidang statistik, Anda akan menemukan analisis dan praktisi Bayesian. Sama seperti Anda akan menemukan beberapa orang yang lebih memilih non-parametrik ...
sumber
Hanya untuk menjawab pertanyaan terakhir Anda (jadi saya tidak mencari hadiah!), Tentang hubungan antara pendekatan Bayesian / Frequentist dan posisi epistemologis seseorang, penulis paling menarik yang saya temui adalah Deborah Mayo. Titik awal yang baik adalah pertukaran 2010 antara Mayo dan Andrew Gelman (yang muncul di sini sebagai Bayesian yang agak sesat). Mayo kemudian menerbitkan tanggapan terperinci terhadap makalah Gelman & Shalizi di sini .
sumber
Subset dari semua Bayesians, yaitu Bayesians yang repot untuk mengirim email, tercantum di sini .
sumber
Saya akan memanggil Bruno de Finetti dan LJ Savage Bayesians. Mereka mengerjakan fondasi filosofisnya.
sumber
Untuk memahami perdebatan mendasar antara frequentis dan Bayesia, akan sulit untuk menemukan suara yang lebih otoritatif daripada Bradley Efron.
Topik ini telah menjadi tema yang telah ia sentuh berkali-kali dalam karirnya, tetapi secara pribadi saya menemukan salah satu makalah yang lebih tua membantu: Kontroversi dalam Yayasan Statistik (yang ini memenangkan penghargaan untuk keunggulan ekspositoris).
sumber