Prosedur EM muncul, bagi yang belum tahu, sebagai kurang lebih ilmu hitam. Taksir parameter HMM (misalnya) menggunakan data yang dilindungi. Kemudian decode data yang tidak ditandai, menggunakan maju-mundur untuk 'menghitung' peristiwa seolah-olah data tersebut ditandai, lebih atau kurang. Mengapa ini membuat model lebih baik? Saya tahu sesuatu tentang matematika, tetapi saya tetap berharap untuk semacam gambaran mental tentang itu.
expectation-maximization
intuition
bmargulies
sumber
sumber
Jawaban:
Hanya untuk menyimpan beberapa pengetikan, panggil data yang diamati , data yang hilang Z (mis. Status tersembunyi HMM), dan vektor parameter yang kami coba cari Q (misal probabilitas transisi / emisi).X Z Q
Penjelasan intuitif adalah bahwa kita pada dasarnya curang, berpura-pura sejenak kita tahu sehingga kita dapat menemukan distribusi bersyarat Z yang pada gilirannya memungkinkan kita menemukan MLE untuk Q (mengabaikan sejenak fakta bahwa kita pada dasarnya membuat lingkaran argumen), lalu akui bahwa kita curang, masukkan nilai Q baru yang lebih baik untuk kita , dan lakukan lagi sampai kita tidak perlu menipu lagi.Q Q Q
Sedikit lebih teknis, dengan berpura-pura bahwa kita tahu nilai sebenarnya , kita bisa berpura-pura tahu sesuatu tentang distribusi bersyarat Z | { X , Q } , yang memungkinkan kami meningkatkan taksiran kami untuk Q , yang sekarang kami anggap sebagai nilai nyata untuk Q sehingga kami bisa berpura-pura mengetahui sesuatu tentang distribusi bersyarat Z | { X , Q } , yang memungkinkan kami meningkatkan taksiran kami untuk Q , yang ... dan seterusnya.Q Z|{X,Q} Q Q Z|{X,Q} Q
Lebih teknis lagi, jika kita tahu , kita bisa memaksimalkan log ( f ( Q | X , Z ) ) dan mendapatkan jawaban yang benar. Masalahnya adalah kita tidak tahu Z , dan setiap estimasi untuk Q harus bergantung padanya. Tetapi jika kita ingin menemukan yang terbaik estimasi (atau distribusi) untuk Z , maka kita perlu mengetahui X dan Q . Kita terjebak dalam situasi ayam-dan-telur jika kita menginginkan maximizer unik secara analitis.Z log(f(Q|X,Z)) Z Q Z X Q
'Keluar' kami adalah bahwa - untuk setiap estimasi (sebut saja Q n ) - kami dapat menemukan distribusi Z | { Q n , X } , dan dengan demikian kita dapat memaksimalkan kemungkinan log gabungan yang diharapkan dari Q | { X , Z } , berkenaan dengan distribusi bersyarat Z | { Q n , X } . Distribusi bersyarat ini pada dasarnya memberi tahu kita bagaimana Z bergantung pada nilai Q yang diberikan X saat iniQ Qn Z|{Qn,X} Q|{X,Z} Z|{Qn,X} Z Q X , dan beri tahu kami cara mengubah untuk meningkatkan kemungkinan kami untuk Q dan Z pada saat yang sama untuk nilai Q tertentu (yang kami sebut Q n ). Setelah kami memilih Q n + 1 baru , kami memiliki distribusi bersyarat yang berbeda untuk Z | { Q n + 1 , X } dan harus re-menghitung harapan.Q Q Z Q Qn Qn+1 Z|{Qn+1,X}
sumber