Bisakah seseorang memberikan ikhtisar yang baik tentang perbedaan antara Bayesian dan pendekatan frequentist terhadap probabilitas?
Dari apa yang saya mengerti:
Pandangan frequentist adalah bahwa data adalah sampel acak yang dapat diulang (variabel acak) dengan frekuensi / probabilitas tertentu (yang didefinisikan sebagai frekuensi relatif suatu peristiwa karena jumlah percobaan mendekati tak terhingga). Parameter dan probabilitas yang mendasarinya tetap konstan selama proses berulang ini dan bahwa variasi disebabkan oleh variabilitas dalam dan bukan distribusi probabilitas (yang ditetapkan untuk acara / proses tertentu).
Pandangan bayesian adalah bahwa data diperbaiki sementara frekuensi / probabilitas untuk peristiwa tertentu dapat berubah artinya bahwa parameter distribusi berubah. Akibatnya, data yang Anda dapatkan mengubah distribusi parameter sebelumnya yang diperbarui untuk setiap set data.
Bagi saya tampaknya pendekatan yang lebih sering lebih praktis / logis karena tampaknya masuk akal bahwa peristiwa memiliki probabilitas tertentu dan bahwa variasi ada dalam sampel kami.
Selain itu, sebagian besar analisis data dari studi biasanya dilakukan dengan menggunakan pendekatan frequentist (yaitu interval kepercayaan, pengujian hipotesis dengan nilai-p dll) karena mudah dimengerti.
Saya hanya bertanya-tanya apakah ada yang bisa memberi saya ringkasan cepat interpretasi mereka tentang pendekatan bayesian vs sering termasuk statistik setara bayesian dari p-value sering dan interval kepercayaan. Selain itu, contoh spesifik di mana 1 metode lebih disukai daripada yang lain dihargai.
Jawaban:
Dalam pendekatan frequentist , dinyatakan bahwa satu-satunya arti di mana probabilitas memiliki makna adalah sebagai nilai pembatas dari jumlah keberhasilan dalam serangkaian uji coba, yaitu sebagai
di mana adalah jumlah keberhasilan dan adalah jumlah percobaan. Secara khusus, tidak masuk akal untuk mengaitkan distribusi probabilitas dengan parameter .nk n
Sebagai contoh, pertimbangkan sampel dari distribusi Bernoulli dengan parameter (yaitu mereka memiliki nilai 1 dengan probabilitas dan 0 dengan probabilitas ). Kita dapat menentukan tingkat keberhasilan sampel menjadi p p 1 - pX1, ... , Xn hal hal 1 - hal
dan berbicara tentang distribusi tergantung pada nilai , tetapi tidak masuk akal untuk membalikkan pertanyaan dan mulai berbicara tentang distribusi probabilitas tergantung pada nilai observasi dari . Secara khusus, ini berarti bahwa ketika kita menghitung interval kepercayaan, kita menafsirkan ujung interval kepercayaan sebagai variabel acak, dan kita berbicara tentang "probabilitas bahwa interval tersebut memasukkan parameter yang benar", daripada "probabilitas bahwa parameter tersebut adalah di dalam interval kepercayaan ". pp phal^ hal hal hal^
Dalam pendekatan Bayesian , kami menafsirkan distribusi probabilitas sebagai mengukur ketidakpastian kami tentang dunia. Secara khusus, ini berarti bahwa kita sekarang dapat berbicara secara bermakna tentang distribusi probabilitas dari parameter, karena meskipun parameternya tetap, pengetahuan kita tentang nilai sebenarnya mungkin terbatas. Pada contoh di atas, kita dapat membalikkan distribusi probabilitas menggunakan hukum Bayes, untuk memberikanf( hal^∣ p )
Masalahnya adalah kita harus memperkenalkan distribusi sebelumnya ke dalam analisis kita - ini mencerminkan kepercayaan kita tentang nilai sebelum melihat nilai aktual . Peran prior sering dikritik dalam pendekatan frequentist, karena dikemukakan bahwa itu memperkenalkan subjektivitas ke dalam dunia yang lebih keras dan objek kemungkinan.hal Xsaya
Dalam pendekatan Bayesian kita tidak lagi berbicara tentang interval kepercayaan, tetapi alih-alih interval yang kredibel, yang memiliki interpretasi yang lebih alami - dengan interval kredibel 95%, kita dapat menetapkan probabilitas 95% bahwa parameter berada di dalam interval.
sumber
Anda benar tentang interpretasi Anda tentang probabilitas Frequentist: keacakan dalam pengaturan ini hanya karena pengambilan sampel yang tidak lengkap. Dari sudut pandang Bayesian, probabilitas adalah "subyektif", karena hal itu mencerminkan ketidakpastian agen tentang dunia. Tidak tepat untuk mengatakan bahwa parameter distribusi "berubah". Karena kami tidak memiliki informasi lengkap tentang parameter, ketidakpastian kami tentang mereka berubah saat kami mengumpulkan informasi lebih lanjut.
Kedua interpretasi berguna dalam aplikasi, dan mana yang lebih berguna tergantung pada situasinya. Anda dapat melihat blog Andrew Gelman untuk mendapatkan ide tentang aplikasi Bayesian. Dalam banyak situasi yang oleh orang Bayesian disebut "priors". Frequentists menyebutnya "regularisasi", dan dengan demikian (dari sudut pandang saya) kegembiraan dapat meninggalkan ruangan lebih cepat. Faktanya, menurut teorema Bernstein-von Mises, inferensi Bayesian dan Frequentist sebenarnya setara secara asimptot di bawah asumsi yang agak lemah (walaupun teorema tersebut gagal untuk distribusi dimensi tak terbatas). Anda dapat menemukan banyak referensi tentang ini di sini .
Karena Anda meminta interpretasi: Saya pikir sudut pandang Frequentist sangat masuk akal ketika memodelkan eksperimen ilmiah seperti yang dirancang untuk dilakukan. Untuk beberapa aplikasi dalam pembelajaran mesin atau untuk pemodelan penalaran induktif (atau pembelajaran), probabilitas Bayesian lebih masuk akal bagi saya. Ada banyak situasi di mana memodelkan suatu peristiwa dengan probabilitas tetap, "benar" tampaknya tidak masuk akal.
Untuk contoh mainan yang akan kembali ke Laplace , pertimbangkan kemungkinan matahari terbit besok. Dari perspektif Frequentist, kita harus menempatkan sesuatu seperti banyak alam semesta tanpa batas untuk mendefinisikan probabilitas. Sebagai orang Bayesian, hanya ada satu alam semesta (atau setidaknya, tidak perlu banyak). Ketidakpastian kita tentang terbitnya matahari dipadamkan oleh keyakinan awal kita yang sangat, sangat kuat bahwa matahari akan terbit lagi besok.
sumber
Interpretasi Bayes tentang probabilitas adalah interpretasi derajat kepercayaan.
sumber
Chris memberikan penjelasan sederhana yang bagus yang membedakan dengan baik kedua pendekatan terhadap probabilitas. Tetapi teori probabilitas yang sering muncul lebih dari sekadar melihat proporsi keberhasilan jangka panjang. Kami juga mempertimbangkan data yang diambil secara acak dari distribusi dan memperkirakan parameter distribusi seperti rata-rata dan varians dengan mengambil jenis rata-rata tertentu dari data (misalnya untuk rata-rata itu adalah rata-rata aritmatika pengamatan. Teori Frequentist mengaitkan probabilitas dengan estimasi yang disebut distribusi sampling.
Dalam teori frekuensi kita dapat menunjukkan untuk parameter seperti rata-rata yang diambil dengan rata-rata dari sampel bahwa estimasi akan konvergen ke parameter sebenarnya. Distribusi sampling digunakan untuk menggambarkan seberapa dekat perkiraan dengan parameter untuk setiap ukuran sampel tetap n. Tutup didefinisikan oleh ukuran akurasi (misalnya mean square error).
Pada Chris menunjukkan parameter apa pun seperti rata-rata Bayesian menempelkan distribusi probabilitas sebelumnya. Kemudian diberikan data aturan Bayes yang digunakan untuk menghitung distribusi posterior untuk parameter. Untuk Bayesian, semua kesimpulan tentang parameter didasarkan pada distribusi posterior ini.
Frequentists membangun interval kepercayaan yang merupakan interval dari nilai yang masuk akal untuk parameter. Konstruksi mereka didasarkan pada probabilitas sering bahwa jika proses yang digunakan untuk menghasilkan interval diulang berkali-kali untuk sampel independen proporsi interval yang sebenarnya akan mencakup nilai sebenarnya dari parameter akan setidaknya beberapa tingkat kepercayaan yang ditentukan sebelumnya (misalnya 95% ).
Bayesians menggunakan distribusi a posteriori untuk parameter untuk membangun daerah yang kredibel. Ini hanyalah daerah dalam ruang parameter di mana distribusi posterior diintegrasikan untuk mendapatkan probabilitas yang ditentukan sebelumnya (misalnya 0,95). Wilayah yang dapat dipercaya ditafsirkan oleh orang Bayesian sebagai daerah yang memiliki probabilitas tinggi (misalnya yang ditentukan sebelumnya 0,95) termasuk memasukkan nilai sebenarnya dari parameter.
sumber
Dari sudut pandang "dunia nyata", saya menemukan satu perbedaan besar antara "solusi" yang sering dan klasik atau Bayesian yang berlaku untuk setidaknya tiga skenario utama. Perbedaan dalam memilih metodologi tergantung pada apakah Anda memerlukan solusi yang dipengaruhi oleh probabilitas populasi, atau yang dipengaruhi oleh probabilitas individu. Contoh di bawah ini:
Jika ada probabilitas 5% yang diketahui bahwa pria di atas 40 akan meninggal pada tahun tertentu dan memerlukan pembayaran asuransi jiwa, sebuah perusahaan asuransi dapat menggunakan persentase POPULASI 5% untuk memperkirakan biayanya, tetapi untuk mengatakan bahwa setiap individu pria di atas 40 tahun hanya memiliki peluang 5% untuk mati ... tidak ada artinya ... Karena 5% memiliki probabilitas 100% untuk meninggal - yang merupakan pendekatan yang sering dilakukan. Pada tingkat individu peristiwa itu terjadi (probabilitas 100%) atau tidak (probabilitas 0%). Namun, berdasarkan informasi yang terbatas ini, tidak mungkin untuk memprediksi individu yang memiliki 100% kemungkinan meninggal, dan 5 % probabilitas populasi "rata-rata" tidak berguna di tingkat individu.
Argumen di atas berlaku juga untuk kebakaran di gedung-gedung, oleh karena itu alat penyiram diperlukan di semua bangunan dalam suatu populasi.
Kedua argumen di atas berlaku juga untuk pelanggaran sistem informasi, kerusakan, atau "peretasan". Persentase populasi tidak berguna sehingga semua sistem harus dilindungi.
sumber
Pilihan interpretasi tergantung pada pertanyaan. Jika Anda ingin mengetahui peluang dalam permainan peluang, interpretasi klasik akan menyelesaikan masalah Anda, tetapi data statistik tidak berguna karena dadu yang adil tidak memiliki memori.
Jika Anda ingin memprediksi peristiwa masa depan berdasarkan pengalaman masa lalu, interpretasi yang sering terjadi adalah benar dan memadai.
Jika Anda tidak tahu apakah suatu peristiwa di masa lalu telah terjadi, dan ingin menilai probabilitas itu terjadi, Anda harus mengambil keyakinan Anda sebelumnya, yaitu apa yang sudah Anda ketahui tentang peluang peristiwa itu terjadi dan memperbarui keyakinan Anda ketika Anda memperoleh data baru.
Karena pertanyaannya adalah tentang tingkat kepercayaan, dan setiap orang mungkin memiliki ide yang berbeda tentang prior, interpretasinya tentu subyektif, alias Bayesian.
sumber