Saya seorang Bayesian yang berpikiran sederhana yang merasa nyaman di dunia Bayes yang nyaman.
Namun, karena kekuatan jahat di luar kendali saya, saya sekarang harus melakukan kursus pascasarjana pengantar tentang dunia yang eksotis dan aneh dari statistik sering. Beberapa konsep ini tampak sangat aneh bagi saya, dan guru saya tidak berpengalaman dalam Bayes, jadi saya pikir saya akan mendapatkan bantuan di internet dari mereka yang mengerti keduanya.
Bagaimana Anda menjelaskan konsep-konsep yang berbeda dalam statistik frequentist kepada seorang Bayesian yang merasa bahwa frequentism aneh dan tidak nyaman ?
Sebagai contoh, beberapa hal yang sudah saya mengerti:
- Pengukur kemungkinan maksimum sama dengan estimator posterior maksimum , jika datar.
- (tidak sepenuhnya yakin tentang yang satu ini). Jika penaksir tertentu adalah statistik yang cukup untuk parameter , dan datar, maka , yaitu distribusi sampling sama dengan fungsi kemungkinan, dan oleh karena itu sama dengan posterior dari parameter yang diberikan flat sebelumnya.
Itu adalah contoh dari menjelaskan konsep-konsep yang sering kepada seseorang yang mengerti konsep Bayesian.
Bagaimana Anda akan menjelaskan konsep sentral lainnya dari statistik frequentist dalam pengertian yang dapat dipahami oleh Bayesian?
Secara khusus, saya tertarik dengan pertanyaan berikut:
- Apa peran Mean Square Error? Bagaimana hubungannya dengan fungsi kerugian Bayesian?
- Bagaimana kriteria "ketidakberpihakan" berhubungan dengan kriteria Bayesian? Saya tahu bahwa seorang Bayesian tidak akan menuntut penaksirnya tidak bias, tetapi pada saat yang sama, seorang Bayesian mungkin akan setuju bahwa penduga sering tidak bias umumnya lebih diinginkan daripada yang sering bias (meskipun ia akan menganggap keduanya lebih rendah daripada penaksir Bayesian). Jadi bagaimana seorang Bayesian memahami ketidakberpihakan?
- Jika kita memiliki prior priat, apakah interval kepercayaan yang sering terjadi bertepatan dengan yang Bayesian?
- Apa atas nama Laplace yang terjadi dengan tes spesifikasi seperti uji ? Apakah ini beberapa kasus khusus dari pembaruan Bayesian pada distribusi ruang model?
Lebih umum:
Apakah ada sumber daya yang menjelaskan seringnya orang Bayesia? Sebagian besar buku berjalan sebaliknya: mereka menjelaskan Bayesianisme kepada orang-orang yang berpengalaman dalam statistik sering.
ps. Saya telah melihat, dan sementara ada banyak pertanyaan tentang perbedaan antara Bayesian dan Frequentism, tidak ada yang secara eksplisit menjelaskan Frequentism dari perspektif seorang Bayesian.
Pertanyaan ini terkait, tetapi tidak secara khusus menjelaskan konsep Frequentist kepada seorang Bayesian (lebih lanjut tentang membenarkan pemikiran frequentist secara umum).
Juga, maksud saya bukan untuk menampar seringisme. Saya benar-benar ingin memahaminya dengan lebih baik
sumber
Jawaban:
Sebenarnya banyak dari hal-hal yang disebutkan oleh Anda sudah dibahas oleh buku pegangan Bayesian utama. Dalam banyak kasus, buku-buku pegangan itu ditulis untuk para frequentist melalui pelatihan, sehingga mereka membahas banyak kesamaan dan mencoba menerjemahkan metode-metode frequentist ke tanah Bayesian. Salah satu contoh adalah buku Analisis Data Doing Bayesian oleh John K. Kruschke atau makalahnya yang menerjemahkant -menguji tanah Bayesian. Ada juga psikolog lain, Eric-Jan Wagenmakers yang bersama timnya berbicara banyak tentang menerjemahkan konsep-konsep yang sering terjadi ke dalam Bayesian. Konsep keputusan-teoretis seperti fungsi kerugian, ketidakbiasaan, dll. Dibahas dalam buku The Bayesian Choice oleh Christian P. Robert.
Terlebih lagi, beberapa konsep yang Anda sebutkan tidak terlalu Bayesian. Sebagai contoh, fungsi kerugian adalah konsep umum dan hanya jika Anda menggabungkannya dengan distribusi sebelumnya Anda mendapatkan risiko Bayes.
Perlu juga disebutkan bahwa bahkan jika Anda menyatakan Bayesian sendiri, maka Anda mungkin sudah menggunakan banyak metode yang sering. Misalnya, jika Anda menggunakan MCMC untuk estimasi dan kemudian menghitung rata-rata rantai MCMC sebagai estimasi titik Anda, maka Anda menggunakan estimator frequentist, karena Anda tidak menggunakan model Bayesian dan prior untuk mendapatkan estimasi rata-rata MCMC rantai.
Akhirnya, beberapa konsep dan alat yang sering digunakan tidak mudah diterjemahkan ke pengaturan Bayesian, atau "padanan" yang diusulkan lebih merupakan bukti konsep, maka sesuatu yang akan Anda gunakan dalam kehidupan nyata. Dalam banyak kasus pendekatannya sangat berbeda dan mencari persamaan adalah pemborosan waktu.
sumber
Ini salah:
Selain itu, kecukupan tidak ada hubungannya dengan seringnya versus Bayesianisme, meskipun ada gagasan kecukupan khusus Bayesian. Seperti misalnya dalam perbandingan model .
Masalah dengan bagian dari pertanyaan ini adalah bahwa penaksir Bayesian adalah penaksir yang sering juga karena mereka memenuhi sifat-sifat sering seperti penerimaan atau kadang-kadang minimaxity. Seperti yang dibahas dalam entri CV baru - baru ini , estimasi Bayes di bawah kuadrat kesalahan kerugian tidak bisa tidak memihak . Dan tidak ada alasan selain menggunakan fungsi kerugian khusus untuk mendukung ketidakberpihakan: meminimalkan kehilangan posterior adalah semua-inklusif dan jika memaksakan ketidakberpihakan menghasilkan kerugian yang lebih tinggi itu tidak harus dipertimbangkan. (Poin terakhir adalah bahwa ada sangat sedikit fungsi dari parameter yang memungkinkan untuk penduga yang tidak bias.)
sumber
Tampak bagi saya seolah-olah Anda sedang mempertimbangkan sebuah dunia yang sering dikunjungi orang Bayesian. Itu tidak banyak bernuansa. Seperti jika Anda harus menjadi yang satu atau yang lain, atau seolah-olah metode yang diterapkan ditentukan oleh beberapa kepercayaan pribadi (daripada kenyamanan dan masalah spesifik dan informasi yang ada). Saya percaya bahwa ini adalah kesalahpahaman berdasarkan tren saat ini dalam menyebut diri sering atau Bayesian, dan juga banyak bahasa statistik mungkin membingungkan. Cobalah untuk meminta sekelompok ahli statistik menjelaskan nilai-p atau interval kepercayaan.
Beberapa karya klasik dapat membantu Anda memahami kesimpulan yang sering terjadi. Karya-karya klasik berisi prinsip-prinsip dasar, dekat dengan panasnya diskusi di antara para pendukung, dan memberikan latar belakang motivasi (praktis) dan relevansi pada waktu itu.
juga, karya-karya klasik ini pada metode frequentist, ditulis pada masa ketika kebanyakan orang bekerja dengan prinsip-prinsip Bayesian dan perhitungan matematis probabilitas (perhatikan bahwa statistik tidak selalu seolah-olah Anda sedang mengerjakan soal matematika tipikal dengan probabilitas, probabilitas mungkin sangat tidak jelas).
Probabilitas frekuensi bukan probabilitas terbalik
'Probabilitas terbalik' Fisher 1930
Anda membuat gagasan kemungkinan sebagai ekspresi Bayesian dengan flat sebelumnya
Namun,
sementara matematika bertepatan (ketika ditafsirkan secara salah, karena Anda mungkin mendapatkan P (x | a) = P (a | x), hingga konstan, tetapi mereka bukan istilah yang sama) konstruksi dan makna berbeda.
Kemungkinan tidak dimaksudkan untuk menjadi 'probabilitas Bayesian berdasarkan datar, atau seragam, priors'. Kemungkinan bahkan bukan probabilitas dan tidak mengikuti aturan distribusi probabilitas (misalnya Anda tidak dapat menjumlahkan kemungkinan untuk peristiwa yang berbeda, dan integral tidak sama dengan satu), itu hanya ketika Anda mengalikannya dengan flat sebelumnya, bahwa itu menjadi probabilitas, tetapi kemudian maknanya telah berubah juga.
Beberapa kutipan menarik dari 'probabilitas terbalik' 1930 Fisher.
Metode Bayesian dan sering adalah alat yang berbeda :
Perhatikan bahwa ada adalah pernyataan probabilitas tertentu, yang metode frequentist menyediakan.
Lihat juga 'Tentang "Kemungkinan Kesalahan" dari Koefisien Korelasi yang Disimpulkan dari Sampel Kecil.' Fisher 1921 di mana Fisher menunjukkan perbedaan metodenya tidak menjadi probabilitas terbalik Bayesian.
dan
itu adalah probabilitas dan kemungkinan. Lihat juga catatan di akhir artikel Fishers dari tahun 1921 di mana ia berbicara lebih banyak tentang kebingungan.
Perhatikan lagi bahwa kemungkinan adalah fungsi dari serangkaian parameter, tetapi bukan fungsi kepadatan probabilitas dari set parameter tersebut.
Probabilitas digunakan untuk sesuatu yang dapat Anda amati. Misalnya probabilitas bahwa dadu menggulung enam. Kemungkinan digunakan untuk sesuatu yang tidak dapat Anda amati, misalnya hipotesis bahwa dadu menggulung enam 1/6 dari waktu.
juga, Anda mungkin menyukai karya Fisher di mana ia jauh lebih ringan dalam pendapatnya tentang teorema Bayes (masih menggambarkan perbedaan). 'Pada dasar matematika dari statistik teoritis' Fisher 1922 (terutama bagian 6 'solusi formal masalah estimasi')
Lebih
Jika Anda dapat memahami dan menghargai komentar-komentar dari Fisher tentang perbedaan antara probabilitas terbalik dan prinsip kemungkinan Anda mungkin ingin membaca lebih lanjut tentang perbedaan-perbedaan dalam metode frequentist.
'Garis Besar Teori Estimasi Statistik Berdasarkan Teori Klasik Probabilitas' Neyman 1937
Yang merupakan karya 50 halaman dan sulit untuk diringkas. Tapi itu berkaitan dengan pertanyaan Anda tentang ketidak bias bias , menjelaskan metode kuadrat terkecil (dan perbedaan dengan metode kemungkinan maksimum), dan secara khusus memberikan perlakuan interval kepercayaan (interval frequentist sudah tidak sama, unik, apalagi yang sama seperti interval Bayesian untuk prior flat).
Mengenai uji-F tidak jelas, apa atas nama Laplace yang Anda anggap salah. Jika Anda menyukai penggunaan awal, Anda dapat melihat di 'Studi dalam variasi tanaman. II Tanggapan manurial dari varietas kentang berbeda 1923 Fisher dan Mackenzie
Makalah ini memiliki ekspresi anova dalam model linier yang dikenali yang membagi jumlah kuadrat menjadi antara dan di dalam kelompok.
(dalam pengujian artikel 1923 tes terdiri dari perbandingan perbedaan antara log penyimpangan standar sampel dengan kesalahan standar yang dihitung untuk perbedaan ini yang ditentukan oleh jumlah derajat kebebasan . Karya selanjutnya membuat ekspresi yang lebih canggih ini mengarah ke distribusi-F, sehingga dapat meredakan ide yang mungkin dimiliki seseorang tentangnya. Tetapi pada dasarnya, tanpa juggling teknis karena distribusi yang lebih tepat untuk angka kecil, asalnya mirip dengan z-test).12d1+12d2
sumber