Dalam bukunya "Semua Statistik", Prof. Larry Wasserman menyajikan Contoh berikut (11.10, halaman 188). Misalkan kita memiliki kerapatan sedemikian sehingga , di mana adalah fungsi yang diketahui (tidak negatif, dapat diintegrasikan), dan konstanta normalisasi tidak diketahui .f ( x ) = cg
Kami tertarik pada kasus-kasus di mana kami tidak dapat menghitung . Sebagai contoh, itu mungkin kasus bahwa adalah pdf atas ruang sampel yang sangat tinggi.f
Sudah diketahui bahwa ada teknik simulasi yang memungkinkan kita mengambil sampel dari , meskipun tidak diketahui. Oleh karena itu, teka-tekinya adalah: Bagaimana kita dapat memperkirakan dari sampel seperti itu?c c
Wasserman menjelaskan solusi Bayesian berikut ini: biarkan menjadi beberapa sebelum untuk . Kemungkinannya adalah Oleh karena itu, posterior tidak bergantung pada nilai sampel . Oleh karena itu, seorang Bayesian tidak dapat menggunakan informasi yang terkandung dalam sampel untuk membuat kesimpulan tentang .c L x ( c ) = n ∏ i = 1 f ( x i ) = n ∏ i = 1 ( cπ ( c ∣ x ) ∝ c n π ( c ) x 1 , … , x n c
Wasserman menunjukkan bahwa "Bayesians adalah budak dari fungsi kemungkinan. Ketika kemungkinan berjalan serba salah, demikian juga kesimpulan Bayesian".
Pertanyaan saya untuk sesama penumpuk adalah: Mengenai contoh khusus ini, apa yang salah (jika ada) dengan metodologi Bayesian?
PS Seperti yang dijelaskan oleh Prof. Wasserman dengan ramah dalam jawabannya, contohnya adalah karena Ed George.
Jawaban:
Ini telah dibahas dalam makalah saya (hanya diterbitkan di internet) "Pada Contoh Larry Wasserman" [ 1 ] dan dalam pertukaran blog antara saya, Wasserman, Robins, dan beberapa komentator lain di blog Wasserman: [ 2 ]
Jawaban singkatnya adalah bahwa Wasserman (dan Robins) menghasilkan paradoks dengan menyarankan bahwa prior dalam ruang berdimensi tinggi "harus" memiliki karakteristik yang menyiratkan bahwa parameter yang menarik diketahui sebagai priori dengan kepastian nyaris atau bahwa masalah yang jelas relevan (bias seleksi) dikenal dengan pasti tidak akan hadir. Faktanya, prior pri yang masuk akal tidak akan memiliki karakteristik ini. Saya sedang dalam proses menulis ringkasan blog untuk menyatukan ini. Ada sebuah makalah 2007 yang sangat bagus, yang menunjukkan pendekatan Bayesian yang masuk akal terhadap contoh yang dipertimbangkan oleh Wasserman dan Ritov, oleh Hameling dan Toussaint: "estimator Bayesian untuk masalah Robins-Ritov" [ 3 ]
sumber
Saya tidak melihat banyak daya tarik dalam contoh ini, khususnya. sebagai kritik potensial terhadap Bayesian dan kemungkinan-wallahs .... Konstanta diketahui, sama dengan Jika adalah satu-satunya " tidak diketahui" dalam gambar, diberi sampel , maka tidak ada masalah statistik tentang masalah dan saya tidak setuju bahwa terdapat estimator dari . Atau prior pada (selain massa Dirac pada nilai di atas). Ini bukan masalah statistik melainkan masalah numerik .c
Bahwa sampel dapat digunakan melalui perkiraan kerapatan (sering) untuk memberikan perkiraan numerik adalah rasa ingin tahu belaka. Bukan kritik terhadap pendekatan statistik alternatif: Saya juga bisa menggunakan perkiraan kepadatan Bayesian ...x1,…,xn c
sumber
Saya setuju bahwa contohnya aneh. Maksud saya itu lebih dari sekedar teka-teki. (Contoh ini sebenarnya karena Ed George.)
Itu memang memunculkan pertanyaan tentang apa artinya bagi sesuatu untuk "diketahui". Christian mengatakan bahwa diketahui. Tetapi, setidaknya dari sudut pandang probabilitas subyektif murni, Anda tidak mengetahuinya hanya karena secara prinsip dapat diketahui. (Misalkan Anda tidak dapat melakukan integral numerik.) Bayesian subyektif menganggap semuanya sebagai variabel acak dengan distribusi, termasuk .c c
Bagaimanapun, kertas
(dengan diskusi) memperlakukan dasarnya masalah yang sama.
Contoh yang disinggung oleh Chris Sims dalam jawabannya adalah sifat yang sangat berbeda.
sumber
Semuanya setelah itu mewarisi dari masalah ini. Secara khusus, posterior yang dihitung dengan Teorema Bayes adalah palsu. Sangat mudah untuk melihat bahwa: anggaplah bahwa Anda memiliki tepat sebelum Perhatikan bahwa . Menurut perhitungan yang disajikan dalam contoh, posterior harus Tetapi jika itu benar, posterior ini akan selalu tidak pantas, karena menyimpang untuk setiap ukuran sampel .
Ini tidak mungkin: kita tahu bahwa jika kita mulai dengan prior yang tepat, posterior kita tidak bisa tidak tepat untuk setiap sampel yang mungkin (mungkin tidak tepat di dalam serangkaian probabilitas prediktif sebelum nol).
sumber
Contohnya agak aneh dan dibuat-buat. Alasan kemungkinan serba salah adalah karena g adalah fungsi yang diketahui . Satu-satunya parameter yang tidak diketahui adalah c yang bukan bagian dari kemungkinan. Juga karena g diketahui data tidak memberi Anda informasi tentang f. Kapan Anda melihat hal seperti itu dalam praktik? Jadi posterior hanya proporsional dengan prior dan semua informasi tentang c ada di prior.
Oke tapi pikirkanlah. Frequentists menggunakan kemungkinan maksimum dan sehingga frequentist kadang-kadang bergantung pada fungsi kemungkinan juga. Yah, frequentist dapat memperkirakan parameter dengan cara lain yang mungkin Anda katakan. Tetapi masalah yang dimasak ini hanya memiliki satu parameter c dan tidak ada informasi dalam data tentang c. Karena g diketahui, tidak ada masalah statistik terkait dengan parameter yang tidak diketahui yang dapat dikumpulkan dari periode data.
sumber
Ada ironi bahwa cara standar untuk melakukan perhitungan Bayesian adalah dengan menggunakan analisis sampel MCMC yang sering dilakukan. Dalam contoh ini kita mungkin menganggap berkaitan erat dengan kemungkinan marjinal, yang ingin kita hitung, tetapi kita akan menjadi puritan Bayesian dalam arti mencoba juga melakukan perhitungan dengan cara Bayesian.c
Ini tidak umum, tetapi dimungkinkan untuk melakukan integral ini dalam kerangka Bayesian. Ini melibatkan menempatkan prior pada fungsi (dalam praktiknya proses Gaussian) mengevaluasi fungsi di beberapa titik, mengkondisikan pada titik-titik ini dan menghitung integral atas posterior lebih dari . Dalam situasi ini kemungkinan melibatkan evaluasi pada sejumlah titik, tetapi tidak diketahui, oleh karena itu kemungkinannya sangat berbeda dengan kemungkinan yang diberikan di atas. Metode ini ditunjukkan dalam makalah ini http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg() g() g() g()
Saya tidak berpikir ada yang salah dengan metodologi Bayesian. Kemungkinan sebagai suguhan tertulis seperti diketahui di mana-mana. Jika ini masalahnya maka tidak akan ada aspek statistik untuk masalah tersebut. Jika diasumsikan tidak diketahui kecuali pada sejumlah titik metodologi Bayesian bekerja dengan baik.g() g()
sumber
Kami dapat memperluas definisi dari kemungkinan yang diketahui (analog dengan ekstensi data untuk memungkinkan data yang hilang untuk datum yang diamati tetapi hilang) untuk memasukkan NULL (tidak ada data yang dihasilkan).
Misalkan Anda memiliki tepat sebelum Sekarang tentukan model data untuk x
Jikac=(∫∞−∞g(x)dx)−1
Kalau tidakfaXa∣C(xa∣c)=0
Jadi posterior akan menjadi 0 atau 1 (tepat) tetapi kemungkinan dari model data di atas tidak tersedia (karena Anda tidak dapat menentukan kondisi yang diperlukan dalam model data.)
Jadi, Anda melakukan ABC.
Gambarkan "c" dari sebelumnya.
Sekarang perkiraan oleh beberapa integrasi numerik dan simpan "c" jika perkiraan itu - "c" <epsilon.(∫∞−∞g(x)dx)−1
"C's" yang disimpan akan menjadi perkiraan posterior yang sebenarnya.
(Keakuratan perkiraan akan bergantung pada epsilon dan kecukupan pengkondisian pada perkiraan itu.)
sumber
sumber