Saya telah membaca beberapa penjelasan tentang algoritma EM (misalnya dari Pengenalan Pola Bishop dan Pembelajaran Mesin dan dari Kursus Pertama Roger dan Gerolami tentang Pembelajaran Mesin). Derivasi EM itu ok, saya mengerti. Saya juga mengerti mengapa algoritma menutupi sesuatu: pada setiap langkah kita meningkatkan hasil dan kemungkinan dibatasi oleh 1.0, jadi dengan menggunakan fakta sederhana (jika suatu fungsi bertambah dan dibatasi maka konvergen) kita tahu bahwa algoritma konvergen ke beberapa solusi.
Namun, bagaimana kita tahu itu minimum lokal? Pada setiap langkah, kami hanya mempertimbangkan satu koordinat (baik variabel laten atau parameter), jadi kami mungkin kehilangan sesuatu, seperti minimum lokal yang mengharuskan pemindahan dengan kedua koordinat sekaligus.
Ini saya percaya adalah masalah yang mirip dengan kelas umum dari algoritma mendaki bukit, yang merupakan contoh EM. Jadi untuk algoritma pendakian bukit umum kita memiliki masalah ini untuk fungsi f (x, y) = x * y. Jika kita mulai dari titik (0, 0), maka hanya dengan mempertimbangkan kedua arah sekaligus kita dapat bergerak ke atas dari nilai 0.
Jawaban:
EM tidak dijamin konvergen ke minimum lokal. Hanya dijamin untuk menyatu ke titik dengan gradien nol sehubungan dengan parameter. Jadi memang bisa macet di titik sadel.
sumber
Pertama-tama, adalah mungkin bahwa EM konvergen ke min lokal , sebuah max lokal , atau titik pelana dari fungsi kemungkinan. Lebih tepatnya, seperti yang ditunjukkan Tom Minka , EM dijamin untuk menyatu ke titik dengan gradien nol .
Saya dapat memikirkan dua cara untuk melihat ini; pandangan pertama adalah intuisi murni, dan pandangan kedua adalah sketsa bukti formal. Pertama, saya akan menjelaskan secara singkat bagaimana EM bekerja:
Maksimalisasi Ekspektasi sebagai kenaikan gradien
Dalam setiap iterasi , EM mensyaratkan bahwa terikat menyentuh fungsi likelihood pada solusi iterasi sebelumnya yaitu yang menyiratkan gradien mereka juga sama; itu adalah . Jadi, EM setidaknya sama baiknya dengan kenaikan gradien karena setidaknya sama baiknya dengan . Dengan kata lain:t bt L θt−1 g=∇bt(θt−1)=∇L(θt−1) θt θt−1+ηg
Sketsa bukti formal
Satu dapat menunjukkan bahwa kesenjangan antara batas dan fungsi kemungkinan menyatu menjadi nol; itu adalah Seseorang dapat membuktikan bahwa gradien dari ikatan juga menyatu dengan gradien fungsi likelihood; yaitu: Karena dan dan batas-batas yang digunakan dalam EM dapat dibedakan, dan bahwa , kita memiliki dan, oleh karena itu, .
sumber