Mengapa ada E dalam algoritma nama EM?

8

Saya mengerti di mana langkah E terjadi dalam algoritma (seperti yang dijelaskan dalam bagian matematika di bawah). Dalam pikiran saya, kecerdikan kunci dari algoritma adalah penggunaan ketidaksetaraan Jensen untuk membuat batas bawah pada kemungkinan log. Dalam hal itu, mengambil Expectationhanya dilakukan untuk merumuskan kembali kemungkinan log agar sesuai dengan ketidaksetaraan Jensen (yaitu untuk fungsi cekung.)E(f(x))<f(E(x))

Apakah ada alasan mengapa E-step disebut? Apakah ada signifikansi pada hal yang kita harapkan (yaitu ? Saya merasa seperti kehilangan intuisi di balik mengapa Ekspektasi itu begitu sentral, daripada sekadar bersifat insidental terhadap penggunaan ketidaksetaraan Jensen.p(xi,zi|θ)

EDIT: Tutorial mengatakan:

Nama 'E-step' berasal dari fakta bahwa seseorang biasanya tidak perlu untuk membentuk distribusi probabilitas atas penyelesaian secara eksplisit, tetapi lebih perlu hanya menghitung statistik yang cukup 'diharapkan' atas penyelesaian ini.

Apa artinya "seseorang biasanya tidak perlu membentuk distribusi probabilitas atas penyelesaian secara eksplisit"? Seperti apa distribusi probabilitas itu?


Lampiran: E-langkah dalam algoritma EM

ll=ilogp(xi;θ)definition of log likelihood=ilogzip(xi,zi;θ)augment with latent variables z=ilogziQi(zi)p(xi,zi;θ)Qi(zi)Qi is a distribution for zi=ilogEzi[p(xi,zi;θ)Qi(zi)]taking expectations - hence the E in EMEzi[logp(xi,zi;θ)Qi(zi)]Using Jensen's rule for log which is concaveiziQi(zi)logp(xi,zi;θ)Qi(zi)Q function to maximize
Heisenberg
sumber
2
Tidak jelas bagi saya apa yang Anda tanyakan, tetapi saya selalu berasumsi bahwa relevansi di balik penamaan E-step adalah, dalam beberapa hal, Anda "mengisi" atau "menusuk" hilang dengan mengambil harapan. Memang, ini tidak persis apa yang sedang terjadi karena Anda mengambil yang tidak sama dengan memasukkan sesuatu untuk kehilangan nilai-nilai , tetapi secara operasional sering berakhir dengan melakukan sesuatu seperti itu. Jika kami melakukan augmentasi data - yang mirip dengan EM dalam banyak hal. zEθ[logp(x,Z;θ)X=x]Z
cowok
Ya ini jenis diskusi yang saya inginkan. Jadi, ketika Anda mengatakan menyalahkan z dengan mengambil harapan ". Harapan tentang apa? Juga, maksud Anda alih-alih ?EzEθ
Heisenberg
Asuhan saya selalu mengindeks dengan parameter mengindeks ukuran probabilitas bahwa harapan sedang diambil sehubungan dengan. Di CS mereka melakukannya seperti yang Anda sarankan. Saya mengintegrasikan , mengkondisikan pada terhadap ukuran yang diindeks oleh . EZXθ
cowok
Sebagai contoh, saat memasang campuran Gaussian, langkah-E menghubungkan indikator kelas yang hilang. Tetapi ia melakukannya dengan cara yang tidak jelas dengan menghitung tanggung jawab untuk setiap pengamatan.
cowok

Jawaban:

11

Harapan adalah inti dari algoritma EM. Untuk memulainya, kemungkinan terkait dengan data(x1,,xn) direpresentasikan sebagai harapan

p(x1,,xn;θ)=Znp(x1,,xn,z1,,zn;θ)dz=Znp(x1,,xn|z1,,zn,θ)p(z1,,zn;θ)dz=Eθ[p(x1,,xn|z1,,zn,θ)]
di mana harapan adalah dalam hal distribusi marjinal dari vektor laten(z1,,zn).

Intuisi di balik EM juga didasarkan pada harapan. Sejaklogp(x1,,xn;θ) tidak dapat dioptimalkan secara langsung, sementara logp(x1,,xn,z1,,zn;θ) bisa tetapi tergantung pada yang tidak teramati ziIdenya adalah untuk memaksimalkan kemungkinan log lengkap yang diharapkan

E[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
kecuali bahwa harapan ini juga tergantung pada nilaiθ, dipilih sebagai θ0, katakanlah, maka fungsi untuk memaksimalkan (dalam θ) pada langkah M:
Q(θ0,θ)=Eθ0[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
Ketidaksetaraan Jensen hanya datang sebagai pembenaran untuk peningkatan kemungkinan yang diamati pada setiap langkah M.
Xi'an
sumber
1
Terima kasih untuk penjelasannya. Karena distribusi posterior kami untuk vektor laten berubah pada setiap langkah, yaEθ[p(x1,,xn,z,,z,θ)]berubah di setiap langkah juga? Jika demikian, gambar ini agak membingungkan karena ada kurva merah tetap yang mewakilip(x;θ)sedangkan itu p(x;θ) "perubahan" di setiap langkah karena kami rata-rata atas kepercayaan kami saat ini tentang vektor laten zpada langkah itu.
Heisenberg
maaf saya tidak mengerti pertanyaan: pada setiap langkah EM, nilai Eθ[p(x1,,xn|z1,,zn,θ)]perubahan dan peningkatan. Ini tidak berarti kemungkinan fungsi itu sendiri berubah.
Xi'an
Bukan p(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)]? Jika RHS berubah sesuai dengan keyakinan posterior kita tentang vektor laten, apakah LHS juga berubah?
Heisenberg
Identitas ini ada dalam jawaban saya. Kedua belah pihak mengambil nilai yang berbeda saatθbervariasi. Namun, dalam persamaan ini tidak ada gagasan tentang keyakinan posterior sebagai (a)θ diperbaiki dan (b) zidianggap sedikit.
Xi'an
1
Di setiap iterasi t, langkah E menggunakan p(z|x,θt) untuk menghitung integral
Q(θt,θ)=Eθt[logp(x1,,xn,z1,,zn;θ)|x1,,xn].
Karenanya fungsi target untuk memaksimalkan perubahan pada setiap iterasi t. Ini tidak mengatakan apa-apa tentang kemungkinan target aslip(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)] yang hanya tergantung pada satu θ.
Xi'an
1

Jawaban Xi'an sangat bagus, hanya beberapa ekstensi mengenai hasil edit.

Nama 'E-step' berasal dari fakta bahwa seseorang biasanya tidak perlu untuk membentuk distribusi probabilitas atas penyelesaian secara eksplisit, tetapi lebih perlu hanya menghitung statistik yang cukup 'diharapkan' atas penyelesaian ini.

Karena nilai z tidak diamati, kami memperkirakan distribusi qx(z) untuk setiap titik data xsebagai completionsdata teramati. Fungsi Q adalah jumlah kemungkinan log yang diharapkan berakhirqx(z)

Q(θ)=xEqx[logp(x,z|θ)]

Yang disebutkan probability distribution over completionsharus merujukp(x,z|θ). Untuk beberapa distribusi (terutama keluarga eksponensial, karena kemungkinannya ada dalam bentuk log-nya), kita hanya perlu tahu yang diharapkan sufficient statistics(bukan kemungkinan yang diharapkan) untuk menghitung dan memaksimalkanQ(θ).


Ada pengantar yang sangat bagus dalam Bab 19.2 dari Model Grafis Probabilistik.

dontloo
sumber