EM, apakah ada penjelasan yang intuitif?

16

Prosedur EM muncul, bagi yang belum tahu, sebagai kurang lebih ilmu hitam. Taksir parameter HMM (misalnya) menggunakan data yang dilindungi. Kemudian decode data yang tidak ditandai, menggunakan maju-mundur untuk 'menghitung' peristiwa seolah-olah data tersebut ditandai, lebih atau kurang. Mengapa ini membuat model lebih baik? Saya tahu sesuatu tentang matematika, tetapi saya tetap berharap untuk semacam gambaran mental tentang itu.

bmargulies
sumber
Saya tidak yakin tapi saya pikir mungkin untuk menafsirkannya sebagai prosedur optimasi keturunan gradien stocastic. Saya akan memikirkannya ...
robin girard

Jawaban:

12

Hanya untuk menyimpan beberapa pengetikan, panggil data yang diamati , data yang hilang Z (mis. Status tersembunyi HMM), dan vektor parameter yang kami coba cari Q (misal probabilitas transisi / emisi).XZQ

Penjelasan intuitif adalah bahwa kita pada dasarnya curang, berpura-pura sejenak kita tahu sehingga kita dapat menemukan distribusi bersyarat Z yang pada gilirannya memungkinkan kita menemukan MLE untuk Q (mengabaikan sejenak fakta bahwa kita pada dasarnya membuat lingkaran argumen), lalu akui bahwa kita curang, masukkan nilai Q baru yang lebih baik untuk kita , dan lakukan lagi sampai kita tidak perlu menipu lagi.QQQ

Sedikit lebih teknis, dengan berpura-pura bahwa kita tahu nilai sebenarnya , kita bisa berpura-pura tahu sesuatu tentang distribusi bersyarat Z | { X , Q } , yang memungkinkan kami meningkatkan taksiran kami untuk Q , yang sekarang kami anggap sebagai nilai nyata untuk Q sehingga kami bisa berpura-pura mengetahui sesuatu tentang distribusi bersyarat Z | { X , Q } , yang memungkinkan kami meningkatkan taksiran kami untuk Q , yang ... dan seterusnya.QZ|{X,Q}QQZ|{X,Q}Q

Lebih teknis lagi, jika kita tahu , kita bisa memaksimalkan log ( f ( Q | X , Z ) ) dan mendapatkan jawaban yang benar. Masalahnya adalah kita tidak tahu Z , dan setiap estimasi untuk Q harus bergantung padanya. Tetapi jika kita ingin menemukan yang terbaik estimasi (atau distribusi) untuk Z , maka kita perlu mengetahui X dan Q . Kita terjebak dalam situasi ayam-dan-telur jika kita menginginkan maximizer unik secara analitis.Zlog(f(Q|X,Z))ZQZXQ

'Keluar' kami adalah bahwa - untuk setiap estimasi (sebut saja Q n ) - kami dapat menemukan distribusi Z | { Q n , X } , dan dengan demikian kita dapat memaksimalkan kemungkinan log gabungan yang diharapkan dari Q | { X , Z } , berkenaan dengan distribusi bersyarat Z | { Q n , X } . Distribusi bersyarat ini pada dasarnya memberi tahu kita bagaimana Z bergantung pada nilai Q yang diberikan X saat iniQQnZ|{Qn,X}Q|{X,Z}Z|{Qn,X}ZQX, dan beri tahu kami cara mengubah untuk meningkatkan kemungkinan kami untuk Q dan Z pada saat yang sama untuk nilai Q tertentu (yang kami sebut Q n ). Setelah kami memilih Q n + 1 baru , kami memiliki distribusi bersyarat yang berbeda untuk Z | { Q n + 1 , X } dan harus re-menghitung harapan.QQZQQnQn+1Z|{Qn+1,X}

Kaya
sumber