Hubungan antara variational Bayes dan EM

26

Saya membaca di suatu tempat bahwa metode Variational Bayes adalah generalisasi dari algoritma EM. Memang, bagian berulang dari algoritma sangat mirip. Untuk menguji apakah algoritma EM adalah versi khusus dari Variational Bayes, saya mencoba yang berikut:

  1. Y adalah data, adalah kumpulan variabel laten dan adalah parameternya. Dalam Variational Bayes yang kita buat dapat membuat perkiraan sedemikian rupa sehingga . Di mana adalah distribusi yang lebih sederhana dan dapat ditelusuri.Θ P ( X , Θ | Y ) Q X ( X ) Q Θ ( Θ ) QXΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. Karena algoritma EM menemukan perkiraan titik MAP, saya pikir Variational Bayes dapat menyatu dengan EM jika saya menggunakan Fungsi Delta sehingga: . adalah taksiran pertama untuk parameter seperti yang biasanya dilakukan dalam EM.Θ 1QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Ketika diberikan, yang meminimalkan KL Divergence ditemukan dengan rumus Rumus di atas disederhanakan menjadi , langkah ini ternyata setara dengan langkah Ekspektasi dari algoritma EM!Q 1 X ( X ) Q 1 X ( X ) = exp ( E delta Θ 1 [ ln P ( X , Y , Θ ) ]QΘ1(Θ)=δΘ1(Θ)QX1(X) Q 1 X (X)=P(X|Θ1,Y)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

Tapi saya tidak bisa mendapatkan langkah Maksimalisasi sebagai kelanjutan dari ini. Pada langkah berikutnya kita perlu menghitung dan menurut aturan iterasi Variational Bayes ini adalah:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

Apakah algoritma VB dan EM benar-benar terhubung dengan cara ini? Bagaimana kita dapat memperoleh EM sebagai kasus khusus di Variational Bayes, apakah pendekatan saya benar?

Ufuk Can Bicici
sumber
Di mana Anda membaca bahwa algoritma EM menemukan perkiraan MAP? Hubungan antara inferensi variasional dan EM akan menjadi jelas setelah Anda memahami pandangan EM yang disajikan dalam makalah ini oleh Neal & Hinton (1998) . Lihat juga jawaban saya di sini .
Lucas
Saya pikir saya mempelajari algoritma EM dengan cara yang sama seperti makalah ini menjelaskan, itu dipandang sebagai masalah maksimalisasi batas bawah. Menggunakan persamaan Jensen dan Kalkulus variasi, orang menemukan bahwa dalam langkah ekspektasi, adalah distribusi yang memaksimalkan batas bawah untuk dan pada langkah maksimisasi, seseorang menemukan , yang merupakan maksimum pada batas bawah. Jadi, ini mirip dengan Variational Bayes. (Dan itu konvergen ke maksimum lokal dari posterior marginal, maka perkiraan MAP)Θ t Θ t + 1 = a r g m a x Θ < ln P ( X , Y , Θ ) > P ( X | Θ t , Y )P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
Ufuk Can Bicici
1
Maaf, saya tidak cukup membaca pertanyaan Anda. Saya percaya langkah maksimisasi Anda untuk menghitung hanya valid jika Anda mengizinkan distribusi apa pun, yaitu, jika Anda hanya membuat asumsi faktorisasi. Tetapi Anda juga mengasumsikan bahwa adalah distribusi delta. Cobalah untuk secara eksplisit memaksimalkan batas bawah sehubungan dengan , parameter . Q 2 Θ Θ 2 Q 2 Θ ( Θ ) = δ Θ 2 ( Θ )QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
Lucas
Saya menemukan di halaman 21 dari presentasi cs.cmu.edu/~tom/10-702/Zoubin-702.pdf perbandingan EM dan VB telah ditunjukkan, sama halnya dengan menggunakan fungsi Dirac. Tetapi bagaimana VB mengurangi menjadi EM tidak diberikan.
Ufuk Can Bicici

Jawaban:

20

Pendekatan Anda benar. EM setara dengan VB di bawah batasan bahwa perkiraan posterior untuk dibatasi menjadi massa titik. (Ini disebutkan tanpa bukti pada halaman 337 dari Analisis Data Bayesian .) Biarkan menjadi lokasi yang tidak diketahui dari massa titik ini: VB akan meminimalkan perbedaan-KL berikut: Minimum over memberikan E-step EM, dan minimum over memberikan M-step EM. ΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

Tentu saja, jika Anda benar-benar mengevaluasi perbedaan KL, itu akan menjadi tidak terbatas. Tapi itu bukan masalah jika Anda menganggap fungsi delta sebagai batas.

Tom Minka
sumber
Secara teknis, memaksimalkan wrt sesuai dengan langkah-M dari MAP-EM (dengan sebelumnya ). - bagian 3.1 dari makalah VBEM Θ P( Θ )EQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Yibo Yang