Mengapa saya harus menjadi Bayesian ketika model saya salah?

68

Suntingan: Saya telah menambahkan contoh sederhana: inferensi rata-rata . Saya juga sedikit mengklarifikasi mengapa interval kredibel tidak cocok dengan interval kepercayaan buruk.Xi

Saya, seorang Bayesian yang cukup taat, berada di tengah krisis kepercayaan.

Masalah saya adalah sebagai berikut. Asumsikan bahwa saya ingin menganalisis beberapa data IID . Apa yang akan saya lakukan adalah:Xi

  • pertama, usulkan model kondisional:

    p(X|θ)
  • Kemudian, pilih sebelum pada : θ

    p(θ)
  • Akhirnya, terapkan aturan Bayes, hitung posterior: (atau beberapa perkiraan untuk itu jika tidak dapat dihitung) dan jawab semua pertanyaan yang saya miliki tentangp(θ|X1Xn)θ

Ini adalah pendekatan yang masuk akal: jika model sebenarnya dari data memang "di dalam" dari kondisi saya (itu sesuai dengan beberapa nilai ), maka saya dapat meminta teori keputusan statistik untuk mengatakan bahwa metode saya dapat diterima (lihat Robert's "Pilihan Bayesian" untuk detail; "Semua statistik" juga memberikan akun yang jelas dalam bab yang relevan).Xiθ0

Namun, seperti yang diketahui semua orang, dengan menganggap bahwa model saya benar adalah cukup sombong: mengapa alam harus dimasukkan dengan rapi ke dalam kotak model yang telah saya pertimbangkan? Jauh lebih realistis untuk mengasumsikan bahwa model nyata dari data berbeda dari untuk semua nilai . Ini biasanya disebut model "salah spesifikasi".ptrue(X)p(X|θ)θ

Masalah saya adalah, dalam hal kesalahan spesifikasi yang lebih realistis ini, saya tidak memiliki argumen yang bagus untuk menjadi Bayesian (yaitu: menghitung distribusi posterior) dibandingkan dengan hanya menghitung Pengukur Kemungkinan Maksimum (MLE):

θ^ML=argmaxθ[p(X1Xn|θ)]

Memang, menurut Kleijn, vd Vaart (2012) , dalam kasus yang tidak ditentukan, distribusi posterior:

  • konvergen sebagai ke distribusi dirac yang berpusat padanθ^ML

  • tidak memiliki varians yang benar (kecuali dua nilai kebetulan sama) untuk memastikan bahwa interval kredibilitas kecocokan posterior kecocokan untuk dapat dipercaya . (Perhatikan bahwa, meskipun interval kepercayaan jelas merupakan sesuatu yang orang Bayesia tidak pedulikan secara berlebihan, ini secara kualitatif berarti bahwa distribusi posterior secara intrinsik salah, karena ini menyiratkan bahwa interval kredibelnya tidak memiliki cakupan yang benar)θ

Dengan demikian, kami membayar premi komputasi (inferensi Bayesian, secara umum, lebih mahal daripada MLE) tanpa properti tambahan

Jadi, akhirnya, pertanyaan saya : apakah ada argumen, apakah teoretis atau empiris, untuk menggunakan inferensi Bayesian atas alternatif MLE yang lebih sederhana ketika model tersebut tidak ditentukan dengan spesifik?

(Karena saya tahu bahwa pertanyaan saya sering tidak jelas, harap beri tahu saya jika Anda tidak memahami sesuatu: Saya akan mencoba untuk mengulanginya)

Sunting: mari kita pertimbangkan contoh sederhana: menyimpulkan rata-rata bawah model Gaussian (dengan varians yang dikenal untuk menyederhanakan lebih jauh). Kami menganggap Gaussian prior: kami menunjukkan mean sebelumnya, varian terbalik dari prior. Biarkan menjadi rata-rata empiris dari . Akhirnya, perhatikan: .Xiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

Distribusi posterior adalah:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

Dalam kasus yang ditentukan dengan benar (ketika benar-benar memiliki distribusi Gaussian), posterior ini memiliki properti bagus berikutXi

  • Jika dihasilkan dari model hierarkis di mana rata-rata bersama mereka diambil dari distribusi sebelumnya, maka interval kredibel posterior memiliki cakupan yang tepat. Bersyarat pada data, probabilitas berada dalam interval apa pun sama dengan probabilitas bahwa posterior menganggap interval ini.Xiθ

  • Bahkan jika prior tidak benar, interval kredibel memiliki cakupan yang benar dalam batas di mana pengaruh sebelumnya pada posterior menghilangn

  • posterior selanjutnya memiliki sifat-sifat frequentist yang baik: setiap estimator Bayesian yang dibangun dari posterior dijamin dapat diterima, mean posterior adalah estimator yang efisien (dalam pengertian Cramer-Rao) dari interval mean, kredibel, asimtotik, interval kepercayaan.

Dalam kasus yang tidak ditentukan secara spesifik, sebagian besar properti ini tidak dijamin oleh teori. Untuk memperbaiki ide, mari kita asumsikan bahwa model nyata untuk adalah bahwa mereka bukan distribusi siswa. Satu-satunya properti yang dapat kami jamin (Kleijn et al) adalah bahwa distribusi posterior berkonsentrasi pada rata-rata yang dalam batas . Secara umum, semua properti cakupan akan hilang. Lebih buruk lagi, secara umum, kami dapat menjamin bahwa, dalam batas itu, properti cakupan pada dasarnya salah: distribusi posterior menganggap probabilitas yang salah untuk berbagai wilayah ruang.XiXin

Guillaume Dehaene
sumber
2
Nah, pendekatan Bayesian teratur. Itu adalah sesuatu, untuk membantu mencegah overfitting - terlepas dari apakah model Anda salah spesifikasi. Tentu saja, itu hanya mengarah ke pertanyaan terkait tentang argumen untuk inferensi Bayesian terhadap regularized pendekatan klasik (lasso, regresi ridge, elastis bersih dll).
S. Kolassa - Reinstate Monica
3
Anda mungkin tertarik dengan pekerjaan ini dan kerabatnya.
Dougal
7
Ketika model Anda misspecified dalam hal menggunakan fungsi yang salah kemungkinan, maka kedua MLE dan estimasi Bayesian akan salah ...
Tim
5
@Tim: inferensi MLE dan Bayesian tidak berarti dalam kasus yang tidak ditentukan: keduanya mencoba memulihkan nilai parameter yang memberikan akun terbaik dari data dalam model bersyarat. Lebih tepatnya, adalah argumen dari mana KL adalah divergensi Kullback Leibler. Dengan asumsi ringan, baik MLE dan inferensi Bayesian dengan benar mengidentifikasi ketika diberikan dengan jumlah data yang cukupθ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene
3
@amoeba Saya membayangkan tampilan Bayesian yang keras dan bertingkah seperti comandante Che
Aksakal

Jawaban:

31

Saya menganggap pendekatan Bayesian ketika set data saya bukanlah segala sesuatu yang diketahui tentang subjek, dan ingin entah bagaimana memasukkan pengetahuan eksogen itu ke dalam perkiraan saya.

Misalnya, klien saya menginginkan perkiraan default pinjaman dalam portofolio mereka. Mereka memiliki 100 pinjaman dengan beberapa tahun data historis triwulanan. Ada beberapa kemunculan kenakalan (keterlambatan pembayaran) dan hanya beberapa default. Jika saya mencoba memperkirakan model survival pada set data ini, akan sangat sedikit data untuk diestimasi dan terlalu banyak ketidakpastian untuk diperkirakan.

Di sisi lain, manajer portofolio adalah orang-orang yang berpengalaman, beberapa dari mereka mungkin telah menghabiskan waktu puluhan tahun mengelola hubungan dengan peminjam. Mereka memiliki gagasan tentang bagaimana seharusnya tingkat default. Jadi, mereka mampu menghasilkan prior prial. Catatan, bukan prior yang memiliki sifat matematika bagus dan terlihat menarik secara intelektual bagi saya . Saya akan mengobrol dengan mereka dan menggali pengalaman dan pengetahuan mereka dalam bentuk prior.

Sekarang kerangka kerja Bayesian akan memberi saya mekanika untuk mengawinkan pengetahuan eksogen dalam bentuk prior dengan data, dan mendapatkan posterior yang lebih baik dari penilaian kualitatif murni dan ramalan data murni, menurut pendapat saya. Ini bukan filosofi dan saya bukan orang Bayesian. Saya hanya menggunakan alat Bayesian untuk secara konsisten memasukkan pengetahuan ahli ke dalam estimasi berbasis data.

Aksakal
sumber
3
Poin yang sangat bagus. Bayesian inference memang menawarkan kerangka kerja untuk menyelesaikan tugas dengan tepat seperti yang Anda presentasikan. Terima kasih.
Guillaume Dehaene
5
Ini adalah argumen umum untuk pemodelan Bayesian, tetapi bagaimana hubungannya dengan kasus spesifik dari model yang salah ditentukan? Saya tidak melihat koneksi.
Richard Hardy
4
Ya, itu berhubungan dengan pertanyaan saya: bahkan dalam kasus yang tidak ditentukan, inferensi bayesian memang menangani lebih baik (yaitu: dengan cara yang lebih berprinsip) informasi kualitatif, melalui metode sebelumnya, daripada metode MLE, yang harus bekerja dengan regulator. Ini adalah bentuk argumen empiris mengapa inferensi bayesian sedikit lebih baik daripada MLE.
Guillaume Dehaene
2
@ Aksakal, apakah model yang salah ditentukan adalah selain itu intinya. Yang saya khawatirkan adalah Anda tidak menjawab pertanyaan itu. (Jika OP tidak setuju, maka saya pikir dia telah melakukan pekerjaan yang buruk dalam merumuskan pertanyaan.) Tapi saya melihat ada suntingan baru-baru ini, jadi mungkin pertanyaannya telah diubah sekarang.
Richard Hardy
4
@RichardHardy, saya pikir jawaban saya masuk ke jantung krisis iman OP yang didorong oleh pemikiran bahwa jika model kondisional Anda tidak ditentukan secara tepat, maka itu akan mengalahkan sebelumnya dengan meningkatkan ukuran sampel dan posterior Anda akan didorong ke arah model yang salah . Dalam hal ini mengapa repot tentang Bayesian untuk memulai, mengapa tidak hanya untuk langsung MLE, ia bertanya. Contoh saya jelas tidak filosofis, tetapi praktis: Anda sering berurusan tidak hanya dengan sampel terbatas, tetapi kecil. Jadi, data Anda tidak akan menyeret posterior terlalu jauh dari sebelumnya, yang mewakili pengetahuan eksogen.
Aksakal
25

Sebuah pertanyaan yang sangat menarik ... yang mungkin tidak memiliki jawaban (tapi itu tidak membuatnya kurang menarik!)

Beberapa pemikiran (dan banyak tautan ke entri blog saya!) Tentang meme yang semua model salah :

  1. Sementara model hipotetis memang hampir selalu salah dan tidak dapat dibantah salah , masih masuk akal untuk bertindak secara efisien atau koheren sehubungan dengan model ini jika ini adalah yang terbaik yang bisa dilakukan. Kesimpulan yang dihasilkan menghasilkan evaluasi model formal yang "paling dekat" dengan model penghasil data aktual (jika ada);
  2. Ada pendekatan Bayesian yang dapat dilakukan tanpa model , contoh terbaru adalah makalah oleh Bissiri et al. (dengan komentar saya ) dan oleh Watson dan Holmes (yang saya diskusikan dengan Judith Rousseau );
  3. Dengan cara yang terhubung, ada seluruh cabang statistik Bayesian yang berhubungan dengan inferensi M-open ;
  4. Dan arah lain yang sangat saya sukai adalah pendekatan SafeBayes dari Peter Grünwald , yang memperhitungkan spesifikasi model yang salah untuk menggantikan kemungkinan dengan versi down-grade yang dinyatakan sebagai kekuatan dari kemungkinan awal.
  5. Read Paper terbaru dari Gelman dan Hennig membahas masalah ini, meskipun dengan cara yang berbelit-belit (dan saya menambahkan beberapa komentar di blog saya ). Saya kira Anda bisa mengumpulkan bahan untuk diskusi dari entri tentang pertanyaan Anda.
  6. Dalam beberapa hal, Bayesian harus menjadi yang paling tidak peduli di antara para ahli statistik dan pemodel tentang aspek ini karena model pengambilan sampel akan diambil sebagai salah satu dari beberapa asumsi sebelumnya dan hasilnya bersyarat atau relatif terhadap semua asumsi sebelumnya.
Xi'an
sumber
2
Sangat menyenangkan memiliki pendapat Anda tentang ini. Poin pertama Anda masuk akal secara intuisi: jika modelnya tidak terlalu salah, maka hasil dari inferensi kami akan baik-baik saja. Namun, adakah yang pernah membuktikan hasil seperti itu (atau menjelajahi pertanyaan secara empiris)? Poin terakhir Anda (yang mungkin saya salah pahami) membuat saya bingung: model pengambilan sampel adalah pilihan penting. Fakta bahwa kami juga membuat pilihan tidak berarti bahwa kesalahan dalam pemilihan model pengambilan sampel tidak dapat mencemari seluruh model. Terima kasih atas referensi dan blognya yang luar biasa.
Guillaume Dehaene
Untuk poin 1., mengapa tidak model Bayesian rata-rata? Mengapa hanya menggunakan model 'terbaik'?
innisfree
@innisfree: semuanya tergantung pada apa yang Anda rencanakan dengan hasilnya, saya tidak punya agama tentang model rata-rata versus model terbaik.
Xi'an
1
Anda tampaknya menyarankan bahwa ada aspek teoretis keputusan dari rata-rata ketidakpastian model dibandingkan hanya memilih model 'terbaik'. Tentunya itu selalu menguntungkan, yaitu membantu membuat keputusan yang lebih baik, untuk secara koheren memasukkan semua ketidakpastian, termasuk model ketidakpastian.
innisfree
2
Keberatan utama saya terhadap non-parametrik adalah praktis: mereka lebih mahal secara komputasi oleh beberapa urutan besar dibandingkan dengan alternatif yang lebih sederhana. Selain itu, bukankah kita juga mengalami masalah dengan non-parametrik, karena hampir tidak mungkin untuk dua distribusi sebelumnya untuk memiliki dukungan bersama? Itu berarti bahwa prior akan memiliki pengaruh besar dan bahwa (hampir) tidak mungkin bagi ahli statistik bayesian untuk menyetujui ketika memulai dari prior yang berbeda.
Guillaume Dehaene
12

Suntingan: Menambahkan referensi ke makalah ini di badan, seperti yang diminta oleh OP.


Saya memberikan jawaban sebagai Bayesian empiris yang naif di sini.

Pertama, distribusi posterior memungkinkan Anda untuk melakukan perhitungan yang tidak dapat Anda lakukan dengan MLE langsung. Kasus paling sederhana adalah posterior hari ini adalah prioritas hari esok . Bayesian inference secara alami memungkinkan untuk pembaruan berurutan, atau lebih umum secara online atau kombinasi yang tertunda dari berbagai sumber informasi (memasukkan sebelumnya adalah hanya satu contoh buku teks dari kombinasi tersebut). Teori Keputusan Bayesian dengan fungsi kerugian nontrivial adalah contoh lain. Saya tidak akan tahu harus berbuat apa.

Kedua, dengan jawaban ini saya akan mencoba dan berpendapat bahwa mantra bahwa kuantifikasi ketidakpastian pada umumnya lebih baik daripada tidak ada ketidakpastian secara efektif merupakan pertanyaan empiris, karena teorema (seperti yang Anda sebutkan, dan sejauh yang saya tahu) tidak memberikan jaminan.

Optimasi sebagai model mainan dari upaya ilmiah

Sebuah domain yang saya rasa sepenuhnya menangkap kompleksitas masalah adalah yang sangat praktis, tanpa basa-basi, optimalisasi fungsi kotak hitam . Kami berasumsi bahwa kami dapat secara berurutan meminta titik dan mendapatkan pengamatan yang berisik , dengan . Tujuan kami adalah untuk sedekat mungkin dengan dengan jumlah minimum evaluasi fungsi.f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

Cara yang sangat efektif untuk melanjutkan, seperti yang Anda duga, adalah membangun model prediksi tentang apa yang akan terjadi jika saya meminta , dan menggunakan informasi ini untuk memutuskan apa yang harus dilakukan selanjutnya (baik secara lokal atau global). Lihat Rios dan Sahinidis (2013) untuk ulasan tentang metode optimisasi global bebas turunan. Ketika model cukup kompleks, ini disebut meta-model atau fungsi pengganti atau pendekatan permukaan respons . Yang terpenting, model tersebut dapat berupa estimasi titik (misalnya, kesesuaian fungsi jaringan berbasis radial dengan pengamatan kami), atau kami bisa menjadi Bayesian dan entah bagaimana mendapatkan distribusi posterior penuh melaluixXff (misalnya, melalui proses Gaussian).

Optimasi Bayesian menggunakan posterior lebih dari (khususnya, rata-rata posterior bersyarat gabungan dan varians pada titik mana pun) untuk memandu pencarian optimum (global) melalui beberapa heuristik berprinsip. Pilihan klasik adalah untuk memaksimalkan peningkatan yang diharapkan dari titik terbaik saat ini, tetapi bahkan ada metode yang lebih menarik, seperti meminimalkan entropi yang diharapkan atas lokasi minimum (lihat juga di sini ).f

Hasil empiris di sini adalah bahwa memiliki akses ke posterior, bahkan jika salah spesifikasi, umumnya menghasilkan hasil yang lebih baik daripada metode lain. (Ada peringatan dan situasi di mana optimasi Bayesian tidak lebih baik daripada pencarian acak, seperti dalam dimensi tinggi.) Dalam tulisan ini , kami melakukan evaluasi empiris dari metode BO baru vs algoritma optimasi lainnya, memeriksa apakah menggunakan BO nyaman dalam praktiknya, dengan hasil yang menjanjikan.

Karena Anda bertanya - ini memiliki biaya komputasi yang jauh lebih tinggi daripada metode non-Bayesian lainnya, dan Anda bertanya-tanya mengapa kita harus menjadi Bayesian. Asumsinya di sini adalah bahwa biaya yang terlibat dalam mengevaluasi benar (misalnya, dalam skenario nyata, eksperimen teknik atau pembelajaran mesin yang kompleks) jauh lebih besar daripada biaya komputasi untuk analisis Bayesian, sehingga Bayesian terbayar .f

Apa yang bisa kita pelajari dari contoh ini?

Pertama, mengapa optimasi Bayes bekerja sama sekali? Saya kira bahwa model yang salah, tapi tidak yang salah, dan seperti biasa wrongness tergantung pada apa model Anda untuk. Misalnya, bentuk pasti dari tidak relevan untuk optimisasi, karena kami dapat mengoptimalkan transformasi monotonnya. Saya kira alam penuh dengan invariansi seperti itu. Jadi, pencarian yang kami lakukan mungkin tidak optimal (yaitu, kami membuang informasi yang baik), tetapi masih lebih baik daripada tanpa informasi yang tidak pasti.f

Kedua, contoh kami menyoroti bahwa adalah mungkin bahwa kegunaan menjadi Bayesian atau tidak tergantung pada konteksnya , misalnya biaya relatif dan jumlah sumber daya (komputasi) yang tersedia. (Tentu saja jika Anda seorang Bayesian hardcore, Anda percaya bahwa setiap perhitungan adalah inferensi Bayesian berdasarkan beberapa sebelum dan / atau perkiraan.)

Akhirnya, pertanyaan besarnya adalah - mengapa model yang kita gunakan tidak terlalu buruk , dalam arti bahwa eksterior masih berguna dan bukan sampah statistik? Jika kita mengambil teorema Tanpa Makan Siang Gratis, tampaknya kita seharusnya tidak dapat banyak bicara, tetapi untungnya kita tidak hidup di dunia yang sepenuhnya acak (atau secara berlawanan memilih ) fungsi.

Lebih umum, karena Anda meletakkan tag "filosofis" ... Saya kira kita memasuki bidang masalah induksi, atau efektivitas matematika yang tidak masuk akal dalam ilmu statistik (khususnya, dari intuisi matematika kami & kemampuan untuk menentukan model yang bekerja dalam praktik) - dalam arti bahwa dari sudut pandang apriori murni tidak ada alasan mengapa dugaan kami harus baik atau memiliki jaminan apa pun (dan pasti Anda dapat membangun contoh tandingan matematika di mana hal-hal serba salah), tetapi mereka berubah bekerja dengan baik dalam praktik.

Lacerbi
sumber
2
Jawaban yang luar biasa. Terima kasih banyak atas kontribusi Anda. Apakah ada review / perbandingan yang adil dari optimasi Bayesian vs teknik optimasi normal yang menyoroti bahwa versi Bayesian secara empiris lebih baik seperti yang Anda klaim? (Saya cukup baik dengan membawa Anda pada kata-kata Anda, tetapi referensi akan berguna)
Guillaume Dehaene
1
Terima kasih! Saya pikir bahwa angka-angka probabilitas panggilan untuk senjata berisi beberapa argumen teoritis dan empiris. Saya tidak mengetahui adanya tolok ukur yang benar-benar membandingkan metode BO dengan metode standar, tetapi [ trigger warning: shameless plug ] Saat ini saya sedang mengerjakan sesuatu di sepanjang garis ini dalam bidang ilmu saraf komputasi; Saya berencana untuk meletakkan beberapa hasil di arXiv, semoga dalam beberapa minggu ke depan.
lacerbi
Memang, setidaknya angka 2 mereka memiliki perbandingan yang jelas. Bisakah Anda menambahkan Anda bekerja ke pertanyaan utama Anda setelah keluar? Saya merasa itu akan menjadi tambahan yang berharga.
Guillaume Dehaene
Ya - itulah metode mereka untuk quadrature Bayesian adaptif, yang merupakan ide yang cukup keren (dalam praktiknya, efektivitasnya tergantung pada apakah pendekatan GP bekerja; yang sering hampir setara dengan mengatakan bahwa Anda memiliki parameterisasi yang masuk akal untuk masalah Anda). Saya akan menambahkan tautan ke jawaban ketika pekerjaan saya tersedia, terima kasih.
lacerbi
1
@IMA: Maaf, saya tidak berpikir bahwa saya 100% mengerti maksud Anda. Saya mengambil optimasi kotak hitam sebagai model mainan dari upaya ilmiah. Saya percaya Anda dapat memetakan banyak langkah dan masalah "sains" ke domain yang lebih sederhana (namun masih sangat kompleks) ini. Tidak perlu untuk asumsi "Gaussian noise" untuk argumen saya, itu hanya untuk kesederhanaan. Masalah optimasi dunia nyata (misalnya, dalam rekayasa) mungkin rusak oleh kebisingan non-Gaussian, dan itu adalah sesuatu yang perlu ditangani. Dan proses Gaussian tidak perlu noise observasi Gaussian (meskipun itu membuat inferensi mudah).
lacerbi
10

Saya hanya melihat ini hari ini, tetapi saya pikir saya harus tetap mengingat bahwa saya agak ahli dan setidaknya dua jawaban (no. 3 dan 20 (terima kasih telah merujuk pada pekerjaan saya, Xi'an!)) Sebutkan pekerjaan saya di SafeBayes - khususnya G. dan van Ommen, "Inkonsistensi Bayesian Inference untuk Model Linier yang salah ditentukan, dan Proposal untuk Memperbaikinya" (2014). Dan saya juga ingin menambahkan sesuatu ke komentar 2:

2 mengatakan: (keuntungan dari Bayes di bawah kesalahan spesifikasi adalah ...) "Yah, pendekatan Bayesian diatur. Itu adalah sesuatu, untuk membantu melawan overfitting - apakah model Anda salah ditentukan atau tidak. Tentu saja, itu hanya mengarah pada pertanyaan terkait tentang argumen untuk inferensi Bayesian terhadap pendekatan klasik yang diatur (laso dll) "

Ini benar, tetapi penting untuk menambahkan bahwa pendekatan Bayesian mungkin tidak cukup teratur jika modelnya salah. Ini adalah poin utama dari pekerjaan dengan Van Ommen - kita melihat di sana bahwa standar Bayes overfits agak sangat dalam beberapa konteks regresi dengan model yang salah tapi sangat berguna. Tidak seburuk MLE, tetapi masih terlalu bermanfaat. Ada satu untaian pekerjaan dalam pembelajaran mesin teoritis (frequentist dan game-theoretic) di mana mereka menggunakan metode yang mirip dengan Bayes, tetapi dengan 'tingkat pembelajaran' yang jauh lebih kecil - menjadikan yang sebelumnya lebih penting dan data menjadi lebih penting, sehingga lebih teratur. Metode ini dirancang untuk bekerja dengan baik dalam situasi terburuk (kesalahan spesifikasi dan bahkan lebih buruk, data permusuhan) - pendekatan SafeBayes dirancang untuk 'mempelajari laju pembelajaran optimal' dari data itu sendiri - dan tingkat pembelajaran optimal ini, yaitu jumlah optimal regularisasi,

Terkait, ada teorema rakyat (disebutkan oleh beberapa di atas) mengatakan bahwa Bayes akan memiliki konsentrasi posterior pada distribusi terdekat di KL berbeda dengan 'kebenaran'. Tetapi ini hanya berlaku di bawah kondisi yang sangat ketat - JAUH lebih ketat dari kondisi yang dibutuhkan untuk konvergensi dalam kasus yang ditentukan dengan baik. Jika Anda berurusan dengan model parametrik dimensi rendah standar dan data sesuai dengan beberapa distribusi (bukan dalam model) maka posterior memang akan berkonsentrasi di sekitar titik dalam model yang paling dekat dengan kebenaran dalam divergensi KL. Sekarang jika Anda berurusan dengan model nonparametrik besar dan modelnya benar, maka (pada dasarnya) posterior Anda akan tetap berkonsentrasi di sekitar distribusi yang benar dengan data yang cukup, selama sebelumnya Anda menempatkan cukup massa dalam bola KL kecil di sekitar distribusi yang sebenarnya. Ini adalahkondisi lemah yang diperlukan untuk konvergensi dalam kasus nonparametrik jika modelnya benar.

Tetapi jika model Anda nonparametric namun salah, maka posterior mungkin tidak berkonsentrasi di sekitar titik KL terdekat, bahkan jika sebelumnya Anda menempatkan massa mendekati 1 (!) Di sana - posterior Anda mungkin tetap bingung untuk selamanya, berkonsentrasi pada distribusi yang selalu berbeda seiring berjalannya waktu tetapi tidak pernah sekitar yang terbaik. Dalam makalah saya, saya memiliki beberapa contoh hal ini terjadi. Makalah-makalah yang menunjukkan konvergensi di bawah spesifikasi yang salah (mis. Kleijn dan van der Vaart) memerlukan banyak kondisi tambahan, misalnya modelnya harus cembung, atau yang sebelumnya harus mematuhi properti (rumit) tertentu. Inilah yang saya maksudkan dengan kondisi 'ketat'.

Dalam praktiknya kita sering berurusan dengan model parametrik namun dimensi yang sangat tinggi (pikirkan regresi ridge Bayesian, dll.). Kemudian jika modelnya salah, akhirnya posterior Anda akan berkonsentrasi pada distribusi KL terbaik dalam model tetapi versi mini dari ketidakkonsistenan nonparametrik masih berlaku: mungkin diperlukan pesanan data yang lebih besar sebelum konvergensi terjadi - lagi, makalah saya dengan Van Ommen memberi contoh.

Pendekatan SafeBayes memodifikasi bay standar dengan cara yang menjamin konvergensi dalam model nonparametrik di bawah (pada dasarnya) kondisi yang sama seperti dalam kasus yang ditentukan dengan baik, yaitu massa sebelumnya yang cukup dekat distribusi optimal KL dalam model (G. dan Mehta, 2014 ).

Lalu ada pertanyaan apakah Bayes bahkan memiliki justifikasi di bawah salah spesifikasi. IMHO (dan seperti juga disebutkan oleh beberapa orang di atas), pembenaran standar Bayes (penerimaan, Savage, De Finetti, Cox dll) tidak berlaku di sini (karena jika Anda menyadari bahwa model Anda salah ditentukan, probabilitas Anda tidak mewakili kepercayaan Anda yang sebenarnya. !). NAMUN banyak metode Bayes juga dapat diartikan sebagai 'metode deskripsi panjang minimum (MDL)' - MDL adalah metode informasi-teoretis yang menyamakan 'belajar dari data' dengan 'mencoba mengompresi data sebanyak mungkin'. Interpretasi kompresi data ini dari (beberapa) metode Bayesian tetap valid di bawah salah spesifikasi. Jadi masih ada beberapainterpretasi yang mendasari yang menahan di bawah spesifikasi yang salah - namun demikian, ada masalah, seperti yang ditunjukkan makalah saya dengan van Ommen (dan interval kepercayaan / masalah set yang kredibel yang disebutkan dalam posting asli).

Dan kemudian komentar terakhir tentang posting asli: Anda menyebutkan pembenaran 'diterimanya' dari Bayes (kembali ke kelas lengkap Wald thm tahun 1940-an / 50-an). Apakah ini benar-benar pembenaran Bayes benar-benar sangat tergantung pada definisi tepat seseorang tentang 'inferensi Bayes' (yang berbeda dari peneliti ke peneliti ...). Alasannya adalah bahwa hasil penerimaan ini memungkinkan kemungkinan seseorang menggunakan prior yang tergantung pada aspek masalah seperti ukuran sampel, dan hilangnya fungsi bunga dll. Kebanyakan bayesian 'nyata' tidak ingin mengubah prioritas mereka jika jumlah data mereka harus memproses perubahan, atau jika fungsi yang hilang tiba-tiba berubah. Misalnya, dengan fungsi kehilangan cembung ketat, penaksir minimum juga diterima - meskipun biasanya tidak dianggap sebagai Bayesian! Alasannya adalah bahwa untuk setiap ukuran sampel tetap, mereka setara dengan Bayes dengan prior tertentu, tetapi prior berbeda untuk setiap ukuran sampel.

Semoga ini bermanfaat!

Peter Grünwald
sumber
2
Selamat datang di CrossValidated dan terima kasih telah menanggapi pertanyaan ini. Catatan kecil - Anda tidak bisa mengandalkan jawaban yang diurutkan dalam urutan yang sama seperti yang Anda lihat; orang yang berbeda dapat mengurutkan dalam urutan yang berbeda (ada pilihan kriteria penyortiran yang berbeda di bagian atas jawaban tertinggi) dan dua kriteria tersebut berubah seiring waktu. Itu jika Anda menyebut mereka sebagai "no 3 dan 20" orang tidak akan tahu jawaban yang Anda maksud. [Aku hanya bisa menemukan sepuluh jawaban juga.]
Glen_b
1
Terima kasih atas jawaban yang bagus, Peter. Saya bingung dengan komentar Anda bahwa kesimpulan Bayesian dalam kasus yang tidak ditentukan membutuhkan asumsi yang sangat kuat. Asumsi apa yang Anda maksudkan secara eksplisit? Apakah Anda berbicara tentang kondisi yang dibutuhkan posterior untuk menyatu dengan distribusi dirac pada nilai parameter terbaik? atau apakah Anda berbicara tentang kondisi yang lebih teknis tentang kemungkinan yang menjamin normalitas asimptotik?
Guillaume Dehaene
Ok, terima kasih untuk Glen B (moderator) - Saya akan mengingatnya mulai sekarang.
Peter Grünwald
Guillaume - Saya memperbarui yang di atas untuk mempertimbangkan komentar Anda
Peter Grünwald
7

Ada pengorbanan bias-varians yang biasa. Bayesian inferensi dengan mengasumsikan M-closed case [1,2], memiliki varian yang lebih kecil [3] tetapi dalam kasus kesalahan spesifikasi model, bias tumbuh lebih cepat [4]. Juga dimungkinkan untuk melakukan inferensi Bayesian dengan asumsi kasus M-open [1,2], yang memiliki varian yang lebih tinggi [3] tetapi dalam kasus kesalahan spesifikasi model, biasnya lebih kecil [4]. Dugaan pertukaran trade-varians antara kasus Bayesian M-closed dan M-open muncul juga dalam beberapa referensi yang termasuk dalam referensi di bawah ini, tetapi jelas ada kebutuhan untuk lebih banyak.

[1] Bernardo dan Smith (1994). Teori Bayesian. John Wiley \ & Sons.

[2] Vehtari dan Ojanen (2012). Sebuah survei metode prediksi Bayes untuk penilaian model, pemilihan dan perbandingan. Survei Statistik, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen dan Aki Vehtari (2017). Perbandingan metode prediksi Bayesian untuk pemilihan model. Statistik dan Komputasi, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson, dan Andrew Gelman (2017). Menggunakan susun untuk distribusi prediksi Bayesian rata-rata. arXiv preprint arXiv: 1704.02030 arxiv.org/abs/1704.02030

Aki Vehtari
sumber
7

Berikut adalah beberapa cara lain untuk membenarkan inferensi Bayesian dalam model yang salah ditentukan.

  • Anda dapat membuat interval kepercayaan pada rata-rata posterior, menggunakan rumus sandwich (dengan cara yang sama dengan yang Anda lakukan dengan MLE). Dengan demikian, meskipun set yang kredibel tidak memiliki cakupan, Anda masih dapat menghasilkan interval kepercayaan yang valid pada estimator titik, jika itu yang Anda minati.

  • Anda dapat mengubah skala distribusi posterior untuk memastikan bahwa set yang kredibel memiliki jangkauan, yang merupakan pendekatan yang diambil dalam:

Müller, Ulrich K. "Risiko inferensi Bayesian dalam model yang tidak ditentukan, dan matriks kovarians roti lapis." Econometrica 81.5 (2013): 1805-1849.

  • Ada justifikasi non-asimptotik untuk aturan Bayes: menghilangkan kondisi teknis, jika sebelumnya adalah , dan log-likelihoodnya adalah , maka posterior adalah distribusi yang meminimalkan berakhir semua distribusi . Istilah pertama seperti utilitas yang diharapkan: Anda ingin memberi massa pada parameter yang menghasilkan kemungkinan tinggi. Istilah kedua mengatur: Anda ingin perbedaan KL kecil dengan yang sebelumnya. Formula ini secara eksplisit mengatakan apa yang optimal posterior. Ini banyak digunakan dalam konteks quasi-likelihood, di mana orang mengganti log-likelihood dengan fungsi utilitas lain.p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)
Pierrot
sumber
Terima kasih untuk makalah Muller: Saya pikir itu menjawab banyak pertanyaan yang saya miliki.
Guillaume Dehaene
6

berasumsi bahwa model nyata dari data berbeda dari untuk semua nilaiptrue(X)p(X|θ)θ

Interpretasi Bayesian dari asumsi ini adalah bahwa ada variabel acak tambahan dan nilai dalam kisarannya sedemikian rupa sehingga . Pengetahuan Anda sebelumnya mengatakan dan . Kemudian yang tidak tepat distribusi probabilitas.ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

Kasus ini sesuai dengan aturan inferensi serupa dalam logika di mana , yaitu Anda tidak dapat menyimpulkan apa pun dari suatu kontradiksi. Hasil adalah cara di mana teori probabilitas bayesian memberi tahu Anda bahwa pengetahuan Anda sebelumnya tidak konsisten dengan data Anda. Jika seseorang gagal mendapatkan hasil ini dalam derivasi posterior mereka, itu berarti bahwa formulasi gagal untuk menyandikan semua pengetahuan sebelumnya yang relevan. Adapun penilaian situasi ini saya serahkan ke Jaynes (2003, hal.41):A,¬Ap(θ|X,ϕ=ϕ0)=0

... itu adalah alat analitik yang kuat yang dapat mencari sekumpulan proposisi dan mendeteksi kontradiksi di dalamnya jika ada. Prinsipnya adalah bahwa probabilitas yang bersyarat pada premis kontradiktif tidak ada (ruang hipotesis direduksi menjadi himpunan kosong). Karena itu, gunakan robot kami untuk bekerja; yaitu menulis program komputer untuk menghitung probabilitas bersyarat pada seperangkat proposisi Meskipun tidak ada kontradiksi yang terlihat dari inspeksi, jika ada kontradiksi yang tersembunyi dip(B|E)E=(E1,E2,,En)E, program komputer akan macet. Kami menemukan ini ,, secara empiris, '' dan setelah beberapa pemikiran menyadari bahwa itu bukan alasan untuk cemas, melainkan alat diagnostik yang berharga yang memperingatkan kita tentang kasus-kasus khusus yang tidak terduga di mana perumusan masalah kita dapat dipecah.

Dengan kata lain, jika rumusan masalah Anda tidak akurat - jika model Anda salah, statistik bayesian dapat membantu Anda mengetahui bahwa ini adalah masalahnya dan dapat membantu Anda menemukan aspek model mana yang menjadi sumber masalah.

Dalam praktiknya, mungkin tidak sepenuhnya jelas pengetahuan apa yang relevan dan apakah harus dimasukkan dalam derivasi. Berbagai teknik pengecekan model (Bab 6 & 7 dalam Gelman et al., 2013, memberikan tinjauan umum) kemudian digunakan untuk mencari tahu dan mengidentifikasi rumusan masalah yang tidak akurat.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A., & Rubin, DB (2013). Analisis data Bayesian, Edisi ketiga. Chapman & Hall / CRC.

Jaynes, ET (2003). Teori probabilitas: Logika sains. Pers universitas Cambridge.

matus
sumber
1
Jawaban Anda tidak ada gunanya dan mempertimbangkan situasi yang lebih sederhana. Saya tidak mempertimbangkan situasi di mana model kami sangat salah sehingga tidak konsisten dengan data. Saya melihat situasi di mana model kami salah, tetapi tidak serempak. Misalnya, pertimbangkan untuk menyimpulkan rata-rata . Anda bisa menggunakan model Gaussian dari untuk inferensi, meskipun model sebenarnya adalah Laplace. Dalam contoh sederhana ini, modelnya salah tetapi tidak akan "meledak" seperti yang Anda gambarkan. XiXi
Guillaume Dehaene
1
@GuillaumeDehaene Pertanyaan Anda adalah apakah ada beberapa argumen untuk menggunakan bayes ketika model tidak ditentukan. Jelas, model mispecified katastrofically salah spesifik. Selain itu, Anda tidak dapat mengetahui apriori apakah model Anda secara spesifik salah spesifikasi atau hanya salah spesifikasi. Bahkan bayes dapat memberi tahu Anda secara tepat tentang hal itu, yang membuatnya berguna dan jawaban saya menunjukkan hal itu.
matus
Jika itu tidak salah secara katrastropis, maka jangkauannya tidak akan jauh berbeda dengan . Anda dapat menulis simulasi model normal ini dengan data Laplacian untuk memeriksanya. Manfaat konseptual akan selalu ada. Pikirkan tentang hal ini: jika Anda memutuskan untuk membuang posterior Anda keluar dari jendela, Anda tidak akan hanya menghitung MLE, tetapi juga beberapa interval kepercayaan diri. Tetapi kita tahu bahwa interpretasi CI yang dihitung untuk SATU eksperimen tertentu adalah rubish. Jadi, rileks dan nikmati bir bayesian. Jika Anda memahami bahwa model tersebut tidak ditentukan secara spesifik, gunakan informasi ini untuk membuat yang lebih baik. 1α
Zen
@GuillaumeDehaene Ya, jawaban saya tidak lengkap. Saya dengan senang hati memperluasnya untuk mengklarifikasi bukan kasus bencana, tetapi Anda perlu menentukan apa yang ada dalam pikiran Anda: apakah maksud Anda bahwa mana adalah angka kecil sehingga kecil? Atau apakah Anda mengatakan bahwa ada sedemikian rupa sehingga namun atau sesuatu yang lain? Saya setuju dengan Zen bahwa umumnya posterior tidak akan banyak terpengaruh dalam kasus-kasus yang kurang parah ini, walaupun orang dapat membuat kasus garis batas. k p ( X | φ = φ 0 ) θ = θ 0 p ( θ = θ 0 | φ = φ 0 ) = 0 p ( X , θ = θ k | ϕ = ϕ 0 ) > 0p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
matus
5

MLE masih merupakan penaksir untuk parameter dalam model yang Anda tentukan dan dianggap benar. Koefisien regresi dalam OLS yang sering dapat diperkirakan dengan MLE dan semua properti yang ingin Anda lampirkan (tidak bias, varian asimtotik spesifik) masih menganggap model linier Anda yang sangat spesifik benar.

Saya akan mengambil langkah ini lebih jauh dan mengatakan bahwa setiap kali Anda ingin menganggap makna dan properti untuk estimator Anda harus mengasumsikan model. Bahkan ketika Anda mengambil sampel rata-rata sederhana, Anda mengasumsikan data dapat ditukar dan seringkali IID.

Sekarang, estimator Bayesian memiliki banyak properti yang diinginkan yang mungkin tidak dimiliki MLE. Misalnya, penyatuan sebagian, regularisasi, dan interpretabilitas posterior yang membuatnya diinginkan dalam banyak situasi.

TrynnaDoStat
sumber
Anda tidak perlu mengasumsikan IID dengan maksud untuk memberi makna. Sudah cukup untuk mengasumsikan pertukaran (tapi, ya, itu masih asumsi ...)
kjetil b halvorsen
@ kjetil b halvorsen Terima kasih, saya telah mengedit untuk kejelasan.
TrynnaDoStat
4

Saya merekomendasikan Filsafat Gelman & Shalizi dan praktik statistik Bayesian . Mereka memiliki tanggapan yang koheren, terperinci dan praktis untuk pertanyaan-pertanyaan ini.

Kami pikir sebagian besar pandangan yang diterima tentang kesimpulan Bayesian ini salah. Metode Bayesian tidak lebih induktif daripada mode inferensi statistik lainnya. Analisis data Bayesian jauh lebih baik dipahami dari perspektif hipotetisiko-deduktif . Tersirat dalam praktik Bayesian terbaik adalah sikap yang memiliki banyak kesamaan dengan pendekatan statistik-kesalahan Mayo (1996), meskipun orientasi yang sering terjadi belakangan. Memang, bagian penting dari analisis data Bayesian, seperti pengecekan model, dapat dipahami sebagai 'probe kesalahan' dalam pengertian Mayo.

Kami melanjutkan dengan kombinasi memeriksa kasus-kasus konkret analisis data Bayesian dalam penelitian ilmu sosial empiris, dan hasil teoritis pada konsistensi dan konvergensi pembaruan Bayesian. Analisis data sosial-ilmiah sangat penting untuk tujuan kita karena ada kesepakatan umum bahwa, dalam domain ini, semua model yang digunakan salah - tidak hanya dapat dipalsukan, tetapi sebenarnya salah. Dengan data yang cukup - dan seringkali hanya dalam jumlah yang cukup moderat - setiap analis dapat menolak model apa pun yang sekarang digunakan untuk tingkat kepercayaan yang diinginkan . Meskipun demikian, pemasangan model merupakan kegiatan yang berharga, dan memang merupakan inti dari analisis data. Untuk memahami mengapa demikian, kita perlu memeriksa bagaimana model dibangun, dipasang, digunakan dan diperiksa, dan efek kesalahan spesifikasi pada model.

...

Dalam pandangan kami, kisah paragraf terakhir [dari pandangan Bayesian standar] sangat keliru. Proses analisis data - Bayesian atau lainnya - tidak berakhir dengan menghitung estimasi parameter atau distribusi posterior. Sebaliknya, model kemudian dapat diperiksa, dengan membandingkan implikasi dari model yang cocok dengan bukti empiris. Seseorang mengajukan pertanyaan seperti apakah simulasi dari model yang dipasang menyerupai data asli, apakah model yang dipasang konsisten dengan data lain yang tidak digunakan dalam pemasangan model, dan apakah variabel yang dikatakan model adalah noise ('terms error') dalam Bahkan menampilkan pola yang mudah terdeteksi. Perbedaan antara model dan data dapat digunakan untuk belajar tentang cara-cara di mana model tidak memadai untuk tujuan ilmiah yang ada, dan dengan demikian untuk memotivasi ekspansi dan perubahan model (Bagian 4.).

Alex Coventry
sumber
2

Saya pikir Anda sedang menggambarkan dampak dari ketidakpastian model - Anda khawatir bahwa kesimpulan Anda tentang parameter yang tidak diketahui berdasarkan data tergantung pada model, , serta data. Bagaimana jika adalah model yang tidak masuk akal? Jika ada model alternatif, dengan parameter tidak diketahui sama , maka Anda dapat memarginalkan ketidakpastian model dengan rata-rata model Bayesian, meskipun ini adalah fungsional dari model yang dipertimbangkan dan prioritasnya.xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

Jika, di sisi lain, definisi parameter secara intrinsik terkait dengan model , sehingga tidak ada alternatif, tidak mengherankan bahwa kesimpulan tentang bergantung pada . xmxm

innisfree
sumber
3
Rata-rata model tidak dapat menyelamatkan kita: masih bodoh untuk mengasumsikan bahwa model yang sebenarnya entah bagaimana masuk ke dalam ruang lingkup model kami yang lebih besar. Dengan perbandingan model, kita dapat menentukan model mana yang memberikan akun terbaik dari data, tetapi ini hanya mengembalikan model yang salah yang kurang salah daripada model lainnya.
Guillaume Dehaene
Ini dapat membantu Anda membuat kesimpulan / perkiraan tentang jumlah yang tidak diketahui yang secara logis memasukkan ketidakpastian model. Namun, itu tidak dapat menciptakan hipotesis baru untuk Anda. Jika ada mesin statistik yang menemukan model berdasarkan data, misalnya sains akan jauh lebih mudah.
innisfree
1

Bagaimana Anda mendefinisikan apa model "tidak ditentukan" itu? Apakah ini berarti model ...

  • membuat prediksi "buruk"?
  • bukan dari bentuk untuk beberapa "model sebenarnya"? pT(x)
  • ada parameter yang hilang?
  • mengarah pada kesimpulan "buruk"?

Jika Anda memikirkan cara-cara model yang diberikan dapat salah ditentukan, Anda pada dasarnya akan mengekstraksi informasi tentang cara membuat model yang lebih baik. Sertakan informasi tambahan itu dalam model Anda!

Jika Anda berpikir tentang apa "model" dalam kerangka bayesian, Anda selalu dapat membuat model yang tidak dapat salah ditentukan. Salah satu cara untuk melakukan ini adalah dengan menambahkan lebih banyak parameter ke model Anda saat ini. Dengan menambahkan lebih banyak parameter, Anda membuat model Anda lebih fleksibel dan mudah beradaptasi. Metode Machine Learning memanfaatkan sepenuhnya ide ini. Ini mendasari hal-hal seperti "jaringan nueral" dan "pohon regresi". Anda memang perlu memikirkan prior (mirip dengan regularisasi untuk ML).

Misalnya, Anda telah memberikan "model linier" sebagai contoh, sehingga Anda memiliki ... Di mana . Sekarang anggaplah kita menambahkan parameter baru untuk setiap pengamatan .... Di mana seperti sebelumnya. Bagaimana ini mengubah banyak hal? Anda bisa mengatakan "model 1 salah ditentukan jika model 2 benar". Tetapi model 2 lebih sulit untuk diperkirakan, karena memiliki lebih banyak parameter. Juga, jika informasi tentang adalah apa yang kita pedulikan, apakah penting jika model 1 adalah "salah"?

model 1: xi=θ+σei
eiN(0,1)
model 2: xi=θ+σeiwi

eiN(0,1)θ

Jika Anda berasumsi bahwa (seperti "model 2a") maka pada dasarnya kami memiliki "kesalahan cauchy" alih-alih "kesalahan normal" dan model mengharapkan pencilan dalam data. Karenanya, dengan menambahkan parameter ke model Anda, dan memilih prior untuknya, saya telah membuat "model yang lebih kuat". Namun model tersebut tetap mengharapkan simetri dalam istilah kesalahan. Dengan memilih yang berbeda sebelumnya, ini bisa diperhitungkan juga ...wiN(0,1)

probabilityislogic
sumber
Dan semakin banyak parameter yang Anda gunakan, semakin banyak data yang Anda butuhkan. Jika informasi dalam tentang langka, maka menambahkan parameter tidak akan membantu. Dengan data baru, DGP bahkan lebih tidak konstan, jadi Anda perlu lebih banyak parameter dan sebagainya. Semakin umum model Anda (semakin banyak parameter), semakin kecil kemungkinannya "salah-ditentukan", tetapi semakin banyak data yang perlu Anda perkirakan. Sebaliknya, semakin sedikit Anda bertanya tentang model Anda, semakin sedikit data yang Anda butuhkan. Tetapi itu berarti dalam kenyataan, bagaimana "benar" kemungkinan model jika posterior penuh versus, katakanlah, momen bersyarat? xf(x)
IMA