Klarifikasi Maksimalisasi Harapan

Saya menemukan tutorial yang sangat membantu mengenai algoritma EM .

Contoh dan gambar dari tutorial ini sangat brilian.

masukkan deskripsi gambar di sini

Pertanyaan terkait tentang menghitung probabilitas bagaimana cara kerja maksimalisasi harapan?

Saya punya pertanyaan lain tentang bagaimana menghubungkan teori yang dijelaskan dalam tutorial ke contoh.

Selama langkah-E, EM memilih fungsi yang menurunkan batas mana-mana, dan untuk mana . $g_t$ $\log P(x;\Theta)$ $g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)})$

Jadi, apa dalam contoh kita, dan sepertinya itu harus berbeda untuk setiap iterasi. $g_t$

Selain itu, dalam contoh dan lalu menerapkannya pada data yang kita dapatkan bahwa dan . Yang bagi saya terlihat kontra intuitif. Kami memiliki beberapa asumsi sebelumnya, menerapkannya pada data dan mendapatkan asumsi baru, sehingga data tersebut entah bagaimana mengubah asumsi tersebut. Saya tidak mengerti mengapa tidak sama dengan . $\hat{\Theta}_A^{(0)} = 0.6$ $\hat{\Theta}_B^{(0)} = 0.5$ $\hat{\Theta}_A^{(1)} = 0.71$ $\hat{\Theta}_B^{(1)} = 0.58$ $\hat{\Theta}^{(0)}$ $\hat{\Theta}^{(1)}$

Selain itu, lebih banyak pertanyaan muncul ketika Anda melihat Catatan Tambahan 1 untuk tutorial ini. Misalnya apa dalam kasus kami. Tidak jelas bagi saya mengapa ketidaksetaraan itu ketat ketika $Q(z)$ $Q(z)=P(z|x;\Theta)$

Terima kasih.

machine-learning clustering algorithms natural-language pengguna16168
sumber

Jawaban:

Saya menemukan catatan ini sangat membantu dalam mencari tahu apa yang terjadi dalam bahan tambahan.

Saya akan menjawab pertanyaan-pertanyaan ini sedikit tidak teratur untuk kesinambungan.

Pertama: mengapa begitu

$\theta^{(0)} \ne \theta^{(1)}$

$g_0$ $\log(P(x;\theta))$ $\theta^{(0)}$ $\theta^{(1)}$ $g_0$ $\theta$

Kedua: mengapa ketimpangan sangat ketat saat

Q (z) = P (z | x; θ)

$Q(z) = P(z|x;\theta)$

Ada petunjuk dalam catatan kaki tentang ini di mana dikatakan,

$y=E[y]$

$Q$ $\frac{P(x, z; \theta)}{Q(z)}$

P (x, z; θ) = P (z | x; θ) P (x; θ)

$P(x, z ; \theta) = P(z | x; \theta) P(x; \theta)$

yang membuat fraksi kita

\frac{P (z | x; θ) P (x; θ)}{P (z | x; θ)} = P (x; θ)

$\frac{P(z | x; \theta) P(x; \theta)}{P(z|x;\theta)} = P(x; \theta)$

$P(x; \theta)$ $z$ $C$

catatan (\sum_{z} Q (z) C) \geq \sum_{z} Q (z) catatan (C)

$\log{\big( \sum_z{Q(z)C} \big)} \ge \sum_z{Q(z)\log(C)}$

$Q(z)$

$g_t$

Jawaban yang diberikan dalam catatan yang saya tautkan sedikit berbeda dari yang ada di catatan tambahan, tetapi mereka hanya berbeda dengan konstanta dan kami memaksimalkannya sehingga tidak ada konsekuensinya. Yang ada di catatan (dengan derivasi) adalah:

g_{t} (θ) = catatan (P (x | θ^{(t)})) + \sum_{z} P (z | x; θ^{(t)}) catatan (\frac{P (x | z; θ) P (z | θ)}{P (z | x; θ^{(t)}) P (x | θ^{(t)})})

$g_t(\theta) = \log(P(x|\theta^{(t)})) + \sum_z{P(z|x;\theta^{(t)})\log{\big( \frac{P(x|z;\theta)P(z|\theta)}{P(z|x;\theta^{(t)})P(x|\theta^{(t)})} \big)}}$

Formula kompleks ini tidak dibicarakan panjang lebar dalam catatan tambahan, mungkin karena banyak dari istilah ini adalah konstanta yang dibuang ketika kita memaksimalkan. Jika Anda tertarik pada bagaimana kami tiba di sini, saya sarankan catatan yang saya tautkan.

$g_t(\theta^{(t)})$ $g_t(\theta^{(t)}) = \log P(x|\theta^{(t)})$

Mike
sumber