Ini adalah pertanyaan berulang (lihat posting ini , posting ini dan posting ini ), tetapi saya memiliki putaran berbeda.
Misalkan saya memiliki banyak sampel dari sampler MCMC generik. Untuk setiap sampel , saya tahu nilai kemungkinanlog f ( x | θ ) log f ( θ ) log f ( x i | θ ) dan dari prior . Jika ini membantu, saya juga tahu nilai kemungkinan log per titik data, (informasi ini membantu dengan metode tertentu, seperti WAIC dan PSIS-LOO).
Saya ingin mendapatkan perkiraan (kasar) dari kemungkinan marjinal, hanya dengan sampel yang saya miliki, dan mungkin beberapa evaluasi fungsi lainnya (tetapi tanpa menjalankan kembali MCMC ad hoc ).
Pertama-tama, mari kita membersihkan meja. Kita semua tahu bahwa estimator harmonik adalah estimator terburuk yang pernah ada . Mari kita lanjutkan. Jika Anda melakukan pengambilan sampel Gibbs dengan prior dan posterior dalam bentuk tertutup, Anda dapat menggunakan metode Chib ; tapi saya tidak yakin bagaimana menggeneralisasi di luar kasus-kasus itu. Ada juga metode yang mengharuskan Anda untuk memodifikasi prosedur pengambilan sampel (seperti via tempered posteriors ), tetapi saya tidak tertarik dengan itu di sini.
Pendekatan yang saya pikirkan terdiri dari perkiraan distribusi yang mendasari dengan bentuk parametrik (atau nonparametrik) , dan kemudian mencari tahu konstanta normalisasi sebagai masalah optimasi 1-D (yaitu, yang meminimalkan beberapa kesalahan antara dan , dievaluasi pada sampel). Dalam kasus paling sederhana, misalkan posterior kira-kira multivariat normal, saya dapat memasukkan sebagai multivariat normal dan mendapatkan sesuatu yang mirip dengan perkiraan Laplace (saya mungkin ingin menggunakan beberapa evaluasi fungsi tambahan untuk memperbaiki posisi mode). Namun, saya dapat menggunakan sebagai keluarga yang lebih fleksibel seperti campuran variational dari multivariat distribusi.
Saya menghargai bahwa metode ini hanya berfungsi jika adalah perkiraan yang masuk akal untuk , tetapi alasan atau dongeng peringatan mengapa sangat tidak bijaksana untuk lakukan? Adakah bacaan yang akan Anda rekomendasikan?
Pendekatan sepenuhnya nonparametrik menggunakan beberapa keluarga nonparametrik, seperti proses Gaussian (GP), untuk memperkirakan (atau transformasi nonlinier lainnya, seperti sebagai akar kuadrat), dan quadrature Bayesian untuk secara implisit mengintegrasikan target yang mendasarinya (lihat di sini dan di sini ). Ini tampaknya menjadi pendekatan alternatif yang menarik, tetapi analog dalam semangat (juga, perhatikan bahwa dokter akan sulit dalam kasus saya).
sumber
Jawaban:
Perpanjangan oleh Chib dan Jeliazkov (2001) sayangnya menjadi cepat mahal atau sangat bervariasi, yang merupakan alasan mengapa itu tidak banyak digunakan di luar kasus sampling Gibbs.
Walaupun ada banyak cara dan pendekatan untuk masalah estimasi konstanta normalisasi (seperti yang diilustrasikan oleh pembicaraan yang cukup beragam dalam lokakarya Estimating Constant yang kami jalankan minggu lalu di University of Warwick, slide tersedia di sana ), beberapa solusi memang mengeksploitasi langsung output MCMC .Z
Seperti yang Anda sebutkan, penaksir rata-rata harmonik dari Newton dan Raftery (1994) hampir selalu buruk karena memiliki varian yang tak terbatas. Namun, ada cara untuk menghindari kutukan varians tak terbatas dengan menggunakan sebagai gantinya target dukungan yang terbatas dalam identitas rata-rata harmonik dengan memilihαsebagai indikator wilayah HPD untuk posterior. Ini memastikan varians yang terbatas dengan menghilangkan ekor di rata-rata harmonik. (Perinciannya dapat ditemukan dalammakalah yang saya tulis dengan Darren Wraithdan dalambab tentang normalisasi konstanta yangditulis dengan Jean-Michel Marin.) Singkatnya, metode ini mendaur ulang output MCMCθ1,…,θMdengan mengidentifikasiβ( 20% mengatakan) nilai terbesar dari targetπ(θ)f(x|θ)dan menciptakanα
Pendekatan lain adalah mengubah konstanta normalisasi menjadi parameter. Ini kedengarannya seperti bid'ah statistik tetapi makalah oleh Guttmann dan Hyvärinen (2012) meyakinkan saya akan hal sebaliknya. Tanpa terlalu banyak ke rincian, ide rapi di dalamnya adalah untuk mengubah diamati log-likelihood n Σ i = 1 f ( x i | q ) - n log ∫ exp f ( x | q ) d x menjadi log-likelihood bersama n ∑ i = 1 [ fZ
sumber