Bayesians: budak fungsi kemungkinan?

62

Dalam bukunya "Semua Statistik", Prof. Larry Wasserman menyajikan Contoh berikut (11.10, halaman 188). Misalkan kita memiliki kerapatan sedemikian sehingga , di mana adalah fungsi yang diketahui (tidak negatif, dapat diintegrasikan), dan konstanta normalisasi tidak diketahui .f ( x ) = cfgf(x)=cg(x)gc>0

Kami tertarik pada kasus-kasus di mana kami tidak dapat menghitung . Sebagai contoh, itu mungkin kasus bahwa adalah pdf atas ruang sampel yang sangat tinggi.fc=1/g(x)dxf

Sudah diketahui bahwa ada teknik simulasi yang memungkinkan kita mengambil sampel dari , meskipun tidak diketahui. Oleh karena itu, teka-tekinya adalah: Bagaimana kita dapat memperkirakan dari sampel seperti itu?c cfcc

Wasserman menjelaskan solusi Bayesian berikut ini: biarkan menjadi beberapa sebelum untuk . Kemungkinannya adalah Oleh karena itu, posterior tidak bergantung pada nilai sampel . Oleh karena itu, seorang Bayesian tidak dapat menggunakan informasi yang terkandung dalam sampel untuk membuat kesimpulan tentang .c L x ( c ) = n i = 1 f ( x i ) = n i = 1 ( cπcπ ( c x ) c n π ( c ) x 1 , , x n c

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Wasserman menunjukkan bahwa "Bayesians adalah budak dari fungsi kemungkinan. Ketika kemungkinan berjalan serba salah, demikian juga kesimpulan Bayesian".

Pertanyaan saya untuk sesama penumpuk adalah: Mengenai contoh khusus ini, apa yang salah (jika ada) dengan metodologi Bayesian?

PS Seperti yang dijelaskan oleh Prof. Wasserman dengan ramah dalam jawabannya, contohnya adalah karena Ed George.

Zen
sumber
10
Contoh ini kedengarannya hanya seperti cara aneh yang tidak efektif untuk melakukan integrasi numerik daripada analisis Bayesian mana pun.
whuber
2
Bagaimana Anda bisa mengatakan bahwa Bayesian tidak belajar apa pun tentang . Jika demikian, kita akan memiliki . Jelas tidak. π ( c | x ) π ( c )cπ(c|x)π(c)
probabilityislogic
2
Saya tidak terlalu mengerti contoh ini. Jika tidak bergantung pada maka bukankah mengejutkan bahwa data tidak informatif karena kemudian hanya bergantung pada bentuk dan apakah sama untuk sampel? Saya jelas kehilangan beberapa poin yang halus (atau tidak begitu halus). g()ccg()any
Dikran Marsupial
Saya telah menyusun pendekatan Bayesian resmi yang dapat mengatasi keberatan @ Zen, tidak mengkontraindikasi kurangnya minat Xi'an dan akhirnya hanya menilai keakuratan integrasi numerik.
phaneron
1
Sebuah tindak lanjut yang bagus di blog Larry: normaldeviate.wordpress.com/2012/10/05/…
Zen

Jawaban:

43

Ini telah dibahas dalam makalah saya (hanya diterbitkan di internet) "Pada Contoh Larry Wasserman" [ 1 ] dan dalam pertukaran blog antara saya, Wasserman, Robins, dan beberapa komentator lain di blog Wasserman: [ 2 ]

Jawaban singkatnya adalah bahwa Wasserman (dan Robins) menghasilkan paradoks dengan menyarankan bahwa prior dalam ruang berdimensi tinggi "harus" memiliki karakteristik yang menyiratkan bahwa parameter yang menarik diketahui sebagai priori dengan kepastian nyaris atau bahwa masalah yang jelas relevan (bias seleksi) dikenal dengan pasti tidak akan hadir. Faktanya, prior pri yang masuk akal tidak akan memiliki karakteristik ini. Saya sedang dalam proses menulis ringkasan blog untuk menyatukan ini. Ada sebuah makalah 2007 yang sangat bagus, yang menunjukkan pendekatan Bayesian yang masuk akal terhadap contoh yang dipertimbangkan oleh Wasserman dan Ritov, oleh Hameling dan Toussaint: "estimator Bayesian untuk masalah Robins-Ritov" [ 3 ]

Chris Sims
sumber
12
Terima kasih atas kontribusi Anda, Prof. Sims. Apakah Anda setuju dengan jawaban saya di bawah ini? PS Sekarang kami memiliki Hadiah Nobel yang diposting di SE. Bagaimana tentang itu? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen
1
@ChrisSims Profesor Sims Terima kasih telah datang dan menerbangkan jawaban saya dengan tanggapan Anda yang sangat berwibawa!
Michael Chernick
4
Saya khawatir dengan fakta bahwa jawaban ini memiliki total suara tertinggi (per saat ini). Seperti dicatat Prof. Wasserman, jawaban Prof. Sims adalah tentang teka-teki yang sama sekali berbeda dari yang ditanyakan Zen. Saya menyimpulkan bahwa sebagian besar orang memutarnya tanpa membaca dan memahami tautan yang disediakan oleh Sims.
Cyan
3
Cyan, Anda dapat menemukan komentar Prof. Sim mengenai teka-teki ini di Tautan [1], WassermanComment.pdf, hal. 10, Bagian VII. Catatan tambahan 2.
madprob
43

Saya tidak melihat banyak daya tarik dalam contoh ini, khususnya. sebagai kritik potensial terhadap Bayesian dan kemungkinan-wallahs .... Konstanta diketahui, sama dengan Jika adalah satu-satunya " tidak diketahui" dalam gambar, diberi sampel , maka tidak ada masalah statistik tentang masalah dan saya tidak setuju bahwa terdapat estimator dari . Atau prior pada (selain massa Dirac pada nilai di atas). Ini bukan masalah statistik melainkan masalah numerik .c

1/Xg(x)dx
cx1,,xncc

Bahwa sampel dapat digunakan melalui perkiraan kerapatan (sering) untuk memberikan perkiraan numerik adalah rasa ingin tahu belaka. Bukan kritik terhadap pendekatan statistik alternatif: Saya juga bisa menggunakan perkiraan kepadatan Bayesian ...x1,,xnc

Xi'an
sumber
4
Adalah tidak mungkin untuk memulai dengan prior yang tepat dan berakhir dengan posterior yang tidak tepat jika kemungkinannya adalah kepadatan bersyarat yang benar!
Xi'an
Bagaimana cara mendefinisikan perbedaan antara konstanta yang tidak diketahui dan parameter? Dalam Pengantar Probabilitas, de Finetti mempertimbangkan memunculkan ketidakpastian Anda untuk . Akankah de Finetti menganggap berbeda dari ? Jika tidak, apakah mengamati data mengubah ketidakpastiannya tentang ? Juga tentang konstanta / parameter yang tidak diketahui. Katakanlah Alice memilih konstan dan , . Meskipun adalah konstanta yang tidak diketahui, Bob dapat memperoleh pendahulunya untuk dan menggunakan untuk belajar tentangπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Mengapa dalam contoh Wasserman berbeda? c
madprob
3
Saya bukan de Finetti, jadi saya tidak bisa menjawabnya!
Xi'an
3
Contoh Anda adalah statistik: Saya mendapatkan pengamatan yang distribusi dasarnya diatur oleh parameter yang tidak diketahui c . Contoh Larry (atau Ed!) Bukan statistik: distribusi sampel diketahui sepenuhnya dan tidak didorong oleh parameter yang tidak diketahui c . Ini diilustrasikan lebih lanjut oleh jawaban Zen : Anda tidak bisa menulis tanpa diakhiri dengan paradoks, karena hanya ada satu nilai tunggal yang mungkin dari c. f(x1,,xn|c)
Xi'an
40

Saya setuju bahwa contohnya aneh. Maksud saya itu lebih dari sekedar teka-teki. (Contoh ini sebenarnya karena Ed George.)

Itu memang memunculkan pertanyaan tentang apa artinya bagi sesuatu untuk "diketahui". Christian mengatakan bahwa diketahui. Tetapi, setidaknya dari sudut pandang probabilitas subyektif murni, Anda tidak mengetahuinya hanya karena secara prinsip dapat diketahui. (Misalkan Anda tidak dapat melakukan integral numerik.) Bayesian subyektif menganggap semuanya sebagai variabel acak dengan distribusi, termasuk .cc

Bagaimanapun, kertas

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae, dan Z. Tan (2003), Teori model statistik untuk integrasi Monte Carlo , J. Royal Statistic. Soc. B , vol. 65, tidak. 3, 585–604

(dengan diskusi) memperlakukan dasarnya masalah yang sama.

Contoh yang disinggung oleh Chris Sims dalam jawabannya adalah sifat yang sangat berbeda.

Larry Wasserman
sumber
3
Profesor Wasserman Terima kasih telah datang dan menjelaskan contoh Anda dan sejarahnya. Saya adalah seorang mahasiswa pascasarjana di Stanford dan tumpang tindih dengan Ed George. Departemen Statistik Stanford sangat non-Bayesian pada saat itu walaupun dengan Efron dan Stein kami berada di pinggiran Bayes empiris. Departemen itu sangat berpikiran terbuka dan Dennis Lindley memberikan program pascasarjana dalam statistik Bayesian bahwa saya mengambil satu musim panas. Entah bagaimana Ed dikonversi menjadi Bayesian penuh dan bahkan menulis makalah tentang Gibbs sampling untuk boneka (walaupun tidak dengan judul itu tentu saja).
Michael Chernick
1
Saya memiliki dan menikmati membaca buku kecil Anda "Semua Statistik" dan "Semua Nonparametrik".
Michael Chernick
1
mungkin tidak secara kebetulan, saya membahas makalah ini oleh Kong et al. (2003), yang sebagian besar negatif tentang efisiensi menggunakan transformasi kelompok pada ukuran daripada pada distribusi. Akhir-akhir ini, Xiao-Li mengarahkan saya ke arah persepsi yang lebih positif dari makalah ini ...
Xi'an
1
"Misalkan kamu tidak dapat melakukan integral angka." Saya memahami bahwa ketidakpastian logis (yang merupakan contohnya) telah menolak analisis meskipun ada banyak upaya.
John Salvatier
cgg(x1)g(x2)g
23

g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

fXiC(c) cc=(g(x)dx)1CCπ

x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Semuanya setelah itu mewarisi dari masalah ini. Secara khusus, posterior yang dihitung dengan Teorema Bayes adalah palsu. Sangat mudah untuk melihat bahwa: anggaplah bahwa Anda memiliki tepat sebelum Perhatikan bahwa . Menurut perhitungan yang disajikan dalam contoh, posterior harus Tetapi jika itu benar, posterior ini akan selalu tidak pantas, karena menyimpang untuk setiap ukuran sampel .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Ini tidak mungkin: kita tahu bahwa jika kita mulai dengan prior yang tepat, posterior kita tidak bisa tidak tepat untuk setiap sampel yang mungkin (mungkin tidak tepat di dalam serangkaian probabilitas prediktif sebelum nol).

Zen
sumber
Saya menyesal tidak ada yang mengomentari jawaban Anda. Saya pikir Anda mungkin ada benarnya tetapi saya agak bingung. Tentu saja Anda dapat menempatkan distribusi yang valid sebelumnya pada bilangan real positif. Mengapa Anda tidak dapat menentukan kerapatan probabilitas f untuk setiap c> 0 jika g tidak negatif memiliki integral hingga pada R ? +
Michael Chernick
1
Hai Michael. Tentu saja Anda dapat: Gamma, Lognormal, dll, dll. Saya tidak melihat bagaimana ini terkait dengan jawabannya. Mungkin saya tidak mengerti apa yang Anda katakan.
Zen
Yah saya mengalami kesulitan mengikuti argumen Anda. Anda mengatakan bahwa kepadatan bersyarat untuk f hanya ada untuk satu c tetapi itu tidak benar. Saya tidak melihat mengapa ekspresi untuk kemungkinan tidak valid dan bagaimana Anda mendapatkan bukti dengan kontradiksi dengan mengasumsikan prior yang tepat dan entah bagaimana menunjukkan bahwa itu mengarah pada distribusi posterior yang tidak tepat.
Michael Chernick
Tampak bagi saya bahwa inti dari masalah ini adalah bahwa data benar-benar independen dari c dan tidak berisi informasi tentang c. Saya pikir Anda dapat mengatakan bahwa ada fungsi likelhood yang melibatkan c tetapi kemungkinan ini tidak dapat dimaksimalkan sebagai fungsi c. Untuk setiap pilihan c, saya pikir ada f = cg.
Michael Chernick
4
Apa pun sebelumnya yang tepat tanpa momen ke-n juga akan berfungsi dalam contoh Anda. Saya setuju ini adalah cara yang berguna untuk menunjukkan bahwa ada sesuatu yang salah. Pemikiran saya lebih dari yang sebelumnya tidak didasarkan pada pengetahuan tentang . Karena Anda tahu ada satu sebelumnya yang konsisten dengan informasi ini. Ini adalah fungsi dirac delta . Menggunakan yang lain sebelumnya secara logis salah Ini seperti mengatakan ketika tidak terlepas dari diberikang(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
probabilityislogic
11

Contohnya agak aneh dan dibuat-buat. Alasan kemungkinan serba salah adalah karena g adalah fungsi yang diketahui . Satu-satunya parameter yang tidak diketahui adalah c yang bukan bagian dari kemungkinan. Juga karena g diketahui data tidak memberi Anda informasi tentang f. Kapan Anda melihat hal seperti itu dalam praktik? Jadi posterior hanya proporsional dengan prior dan semua informasi tentang c ada di prior.

Oke tapi pikirkanlah. Frequentists menggunakan kemungkinan maksimum dan sehingga frequentist kadang-kadang bergantung pada fungsi kemungkinan juga. Yah, frequentist dapat memperkirakan parameter dengan cara lain yang mungkin Anda katakan. Tetapi masalah yang dimasak ini hanya memiliki satu parameter c dan tidak ada informasi dalam data tentang c. Karena g diketahui, tidak ada masalah statistik terkait dengan parameter yang tidak diketahui yang dapat dikumpulkan dari periode data.

Michael Chernick
sumber
Terima kasih, Michael. Situasi yang aneh, bukan? Wasserman menyarankan cara berikut untuk mengestimasi : ambil estimator konsisten (frequentist) dari densitas (semacam estimator kernel, misalnya). Pilih titik arbitrer dan catat bahwa adalah penaksir konsisten . cf^fxc^=f^(x)/g(x)c
Zen
4
@ Zen Oke, mari kita ambil contoh itu. Mengapa mengumpulkan data? Kita tahu g. Jadi kita dapat mengintegrasikannya secara numerik untuk menentukan c ke tingkat akurasi apa pun yang kita inginkan tanpa harus memperkirakan apa pun! Asumsi bahwa kita tidak dapat menghitung c yang berarti bahwa meskipun kita tahu g sebagai fungsi x kita tidak dapat mengintegrasikannya! Saya pikir teladannya lemah dan begitu pula argumennya dan saya suka buku-bukunya secara umum.
Michael Chernick
11

Ada ironi bahwa cara standar untuk melakukan perhitungan Bayesian adalah dengan menggunakan analisis sampel MCMC yang sering dilakukan. Dalam contoh ini kita mungkin menganggap berkaitan erat dengan kemungkinan marjinal, yang ingin kita hitung, tetapi kita akan menjadi puritan Bayesian dalam arti mencoba juga melakukan perhitungan dengan cara Bayesian.c

Ini tidak umum, tetapi dimungkinkan untuk melakukan integral ini dalam kerangka Bayesian. Ini melibatkan menempatkan prior pada fungsi (dalam praktiknya proses Gaussian) mengevaluasi fungsi di beberapa titik, mengkondisikan pada titik-titik ini dan menghitung integral atas posterior lebih dari . Dalam situasi ini kemungkinan melibatkan evaluasi pada sejumlah titik, tetapi tidak diketahui, oleh karena itu kemungkinannya sangat berbeda dengan kemungkinan yang diberikan di atas. Metode ini ditunjukkan dalam makalah ini http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg()g()g()g()

Saya tidak berpikir ada yang salah dengan metodologi Bayesian. Kemungkinan sebagai suguhan tertulis seperti diketahui di mana-mana. Jika ini masalahnya maka tidak akan ada aspek statistik untuk masalah tersebut. Jika diasumsikan tidak diketahui kecuali pada sejumlah titik metodologi Bayesian bekerja dengan baik.g()g()

David Rohde
sumber
Terkejut ini tidak memiliki lebih banyak upvotes. Ini sampai ke inti masalah, yang merupakan pernyataan ambigu bahwa Anda "tahu" apa fungsi itu hanya karena Anda dapat mengevaluasinya kapan saja. Saya pikir kriteria yang lebih tepat untuk mengatakan Anda "tahu" fungsi adalah kemampuan untuk mengevaluasi fungsional linear kontinu di atasnya.
Nick Alger
@Nick Alger: Orang-orang telah kehilangan minat. Saya tidak memilihnya karena saya tidak yakin itu adalah Bayes - apakah xi di set D (xi, f (xi)) merujuk ke xi yang diamati dalam penelitian atau dihasilkan secara acak oleh mereka? Jika itu yang pertama, itu adalah Bayes tetapi sangat mudah dikalahkan dengan MC sederhana dengan beberapa detik waktu komputasi (sehingga tidak berfungsi dengan baik) atau bukan Bayes (belum dikondisikan pada data).
phaneron
-2

Kami dapat memperluas definisi dari kemungkinan yang diketahui (analog dengan ekstensi data untuk memungkinkan data yang hilang untuk datum yang diamati tetapi hilang) untuk memasukkan NULL (tidak ada data yang dihasilkan).

Misalkan Anda memiliki tepat sebelum Sekarang tentukan model data untuk x

π(c)=1c2I[1,)(c).

Jikac=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a untuk semua}

Kalau tidakfaXaC(xac)=0

Jadi posterior akan menjadi 0 atau 1 (tepat) tetapi kemungkinan dari model data di atas tidak tersedia (karena Anda tidak dapat menentukan kondisi yang diperlukan dalam model data.)

Jadi, Anda melakukan ABC.

Gambarkan "c" dari sebelumnya.

Sekarang perkiraan oleh beberapa integrasi numerik dan simpan "c" jika perkiraan itu - "c" <epsilon.(g(x)dx)1

"C's" yang disimpan akan menjadi perkiraan posterior yang sebenarnya.

(Keakuratan perkiraan akan bergantung pada epsilon dan kecukupan pengkondisian pada perkiraan itu.)

phaneron
sumber
-5

π(c|x)=(Πig(xi))cnπ(c),
{xi}
bingung
sumber
2
xf(xc)π(c)dci=1ng(xi)