Catatan: Saya saya menyadari filosofis perbedaan antara Bayesian dan statistik frequentist.
Misalnya "berapa probabilitas bahwa koin di atas meja adalah kepala" tidak masuk akal dalam statistik sering, karena sudah ada kepala atau ekor yang mendarat - tidak ada yang probabilistik tentang hal itu. Jadi pertanyaannya tidak memiliki jawaban dalam istilah yang sering.
Tetapi perbedaan seperti itu secara khusus bukan jenis perbedaan yang saya tanyakan.
Sebaliknya, saya ingin tahu bagaimana prediksi mereka untuk pertanyaan yang terbentuk benar-benar berbeda di dunia nyata, tidak termasuk perbedaan teoretis / filosofis seperti contoh yang saya sebutkan di atas.
Jadi dengan kata lain:
Apa contoh dari pertanyaan, jawab di kedua frequentist dan statistik Bayesian, yang jawabannya berbeda antara keduanya?
(mis. Mungkin salah satu dari mereka menjawab "1/2" untuk pertanyaan tertentu, dan yang lain menjawab "2/3".)
Apakah ada perbedaan seperti itu?
Jika demikian, apa saja contohnya?
Jika tidak, lalu kapan itu benar-benar membuat perbedaan apakah saya menggunakan statistik Bayesian atau frequentist ketika memecahkan masalah tertentu?
Mengapa saya menghindari satu demi yang lain?
sumber
Jawaban:
Contoh ini diambil dari sini . (Saya bahkan berpikir saya mendapat tautan ini dari SO, tetapi tidak dapat menemukannya lagi.)
Koin telah dilempar kali, muncul kepala k = 10 kali. Jika harus dilempar dua kali lagi, akankah Anda bertaruh dengan dua kepala? Asumsikan Anda tidak dapat melihat hasil dari lemparan pertama sebelum lemparan kedua (dan juga tergantung pada θ ), sehingga Anda tidak dapat memperbarui pendapat Anda tentang θ di antara dua lemparan.n = 14 k = 10 θ θ
Dengan independensi, Kemudian, distribusi prediktif yang diberikan sebelum Beta ( α 0 , β 0 ) menjadi
sumber
Lihat pertanyaan saya di sini , yang menyebutkan sebuah makalah oleh Edwin Jaynes yang memberikan contoh interval kepercayaan frequentist yang dibangun dengan benar, di mana ada informasi yang cukup dalam sampel untuk mengetahui dengan pasti bahwa nilai sebenarnya dari statistik terletak pada interval kepercayaan ( dan dengan demikian interval kepercayaan berbeda dari interval kredibel Bayesian).
Namun, alasan untuk ini adalah perbedaan dalam definisi interval kepercayaan dan interval kredibel, yang pada gilirannya merupakan konsekuensi langsung dari perbedaan definisi probabilitas frequentist dan Bayesian. Jika Anda meminta seorang Bayesian untuk menghasilkan interval kepercayaan Bayesian (daripada kredibel), maka saya menduga bahwa akan selalu ada yang sebelumnya intervalnya akan sama, sehingga perbedaannya tergantung pada pilihan sebelumnya.
Apakah metode frequentist atau Bayesian sesuai tergantung pada pertanyaan yang ingin Anda ajukan, dan pada akhirnya adalah perbedaan dalam filosofi yang menentukan jawabannya (asalkan upaya komputasi dan analitik yang diperlukan bukan merupakan pertimbangan).
Menjadi agak bungkam, dapat dikatakan bahwa frekuensi jangka panjang adalah cara yang masuk akal untuk menentukan masuk akal relatifnya suatu proposisi, dalam hal ini statistik frequentist adalah subset yang agak aneh dari Bayesianisme subyektif - sehingga pertanyaan yang sering dijawab oleh seorang frequentist seorang subjektivis Bayesian juga dapat menjawab dengan cara yang sama, atau dalam beberapa cara lain mereka harus memilih prior yang berbeda. ;Hai)
sumber
Saya percaya makalah ini memberikan arti yang lebih terarah dari trade-off dalam aplikasi aktual antara keduanya. Sebagian dari ini mungkin karena preferensi saya untuk interval daripada tes.
Berkenaan dengan interval, mungkin ada baiknya untuk diingat bahwa interval kepercayaan frequentist memerlukan / menuntut cakupan yang seragam (tepat atau setidaknya besar dari x% untuk setiap dan setiap nilai parameter yang tidak memiliki probabilitas nol) dan jika mereka tidak memilikinya - mereka tidak benar-benar interval kepercayaan. (Beberapa akan melangkah lebih jauh dan mengatakan bahwa mereka juga harus mengesampingkan himpunan bagian yang relevan yang mengubah cakupan.)
Cakupan Bayesian biasanya didefinisikan dengan melonggarkan bahwa untuk "cakupan rata-rata" mengingat asumsi sebelumnya ternyata benar. Gustafson dan Greenland (2009) menyebut prior prima yang mahakuasa ini dan mempertimbangkan yang bisa salah untuk memberikan penilaian yang lebih baik.
sumber
Jika seseorang mengajukan pertanyaan yang memiliki jawaban yang sering dan Bayesian, saya curiga bahwa orang lain akan dapat mengidentifikasi ambiguitas dalam pertanyaan, sehingga membuatnya tidak "terbentuk dengan baik".
Dengan kata lain, jika Anda membutuhkan jawaban yang sering, gunakan metode yang sering. Jika Anda membutuhkan jawaban Bayesian, gunakan metode Bayesian. Jika Anda tidak tahu mana yang Anda butuhkan, maka Anda mungkin tidak mendefinisikan pertanyaan dengan jelas.
Namun, di dunia nyata sering ada beberapa cara berbeda untuk mendefinisikan masalah atau mengajukan pertanyaan. Terkadang tidak jelas cara mana yang lebih disukai. Ini sangat umum ketika klien seseorang secara statistik naif. Di lain waktu satu pertanyaan jauh lebih sulit dijawab daripada yang lain. Dalam kasus-kasus seperti itu, orang sering kali menjawab yang paling mudah sambil berusaha memastikan kliennya setuju dengan pertanyaan apa yang ia ajukan atau masalah apa yang sedang ia selesaikan.
sumber
Saya merekomendasikan untuk melihat Latihan 3.15 dari Teori Informasi, Inferensi, dan Algoritma Pembelajaran yang tersedia secara bebas oleh MacKay.
sumber