Saya membaca di variational Bayes, dan seperti yang saya mengerti, itu datang ke gagasan bahwa Anda memperkirakan (di mana z adalah variabel laten dari model Anda dan x data yang diamati) dengan fungsi q (z) , membuat asumsi bahwa q faktorisasi sebagai q_i (z_i) di mana z_i adalah subset dari variabel laten. Maka dapat ditunjukkan bahwa faktor optimal q_i (z_i) adalah: q ^ * _ i (z_i) = \ langle \ ln p (x, z) \ rangle_ {z / i} + \ text {const.} x q ( z ) q q i ( z i ) z i q i ( z i ) q * i ( z i ) = ⟨ ln p ( x , z ) ⟩ z / i + const.
Di mana kurung sudut menunjukkan ekspektasi atas semua variabel laten kecuali sehubungan dengan distribusi .
Sekarang, ungkapan ini biasanya dievaluasi secara analitis, untuk memberikan jawaban yang tepat untuk perkiraan nilai target. Namun, terpikir oleh saya bahwa, karena ini adalah ekspektasi, pendekatan yang jelas adalah untuk memperkirakan ekspektasi ini dengan sampling. Ini akan memberi Anda jawaban perkiraan untuk fungsi target perkiraan, tetapi itu membuat algoritma yang sangat sederhana, mungkin untuk kasus-kasus di mana pendekatan analitis tidak layak.
Pertanyaan saya adalah, apakah ini pendekatan yang dikenal ? Apakah itu mempunyai nama? Adakah alasan mengapa itu mungkin tidak bekerja dengan baik, atau mungkin tidak menghasilkan algoritma sederhana seperti itu?
sumber
Jawaban:
Saya akui ini bukan domain yang saya kenal dengan baik, jadi ambil ini dengan sebutir garam.
Pertama-tama, perhatikan bahwa apa yang Anda usulkan tidak menghasilkan algoritma yang begitu sederhana: untuk menghitung , kami tidak perlu menghitung satu nilai yang diharapkan (seperti rata-rata atau varian), tetapi nilai yang diharapkan dari keseluruhan fungsi. Ini sulit secara komputasi dan akan mengharuskan Anda untuk memperkirakan oleh beberapa (misalnya, kami mungkin menemukan perkiraan histogram) q ⋆ ˜ qq⋆i q⋆ q~
Tetapi, jika Anda akan membatasi ke keluarga parametrik kecil, ide yang lebih baik mungkin menggunakan penurunan gradien stokastik untuk menemukan nilai parameter terbaik (lihat: inferensi bayesian variasi dengan pencarian stokastik, 2012, Paisley, Blei, Jordan ). Gradien yang mereka hitung sangat mirip dengan yang Anda tulis: mereka mengambil sampel dari semua perkiraan yang saat ini tidak dioptimalkan.qi
Jadi apa yang Anda usulkan tidak sesederhana itu, tetapi cukup dekat dengan metode aktual yang telah diusulkan baru-baru ini
sumber