Signifikansi probabilitas transisi awal dalam model markov tersembunyi

11

Apa manfaat dari memberikan nilai awal tertentu untuk probabilitas transisi dalam Model Markov Tersembunyi? Akhirnya sistem akan mempelajarinya, jadi apa gunanya memberikan nilai selain yang acak? Apakah algoritma yang mendasari membuat perbedaan seperti Baum-Welch?

Jika saya mengetahui probabilitas transisi di awal dengan sangat akurat, dan tujuan utama saya adalah untuk memprediksi probabilitas output dari kondisi tersembunyi ke pengamatan, apa yang akan Anda sarankan kepada saya?

metdos
sumber

Jawaban:

7

Baum-Welch adalah algoritma optimasi untuk menghitung estimator kemungkinan maksimum. Untuk model Markov yang tersembunyi, permukaan kemungkinannya mungkin sangat jelek, dan tentu saja tidak cekung. Dengan titik awal yang baik, algoritme dapat menyatu lebih cepat dan menuju MLE.

Jika Anda sudah mengetahui probabilitas transisi dan ingin memprediksi status tersembunyi oleh algoritma Viterbi, Anda memerlukan probabilitas transisi. Jika Anda sudah mengenal mereka, tidak perlu memperkirakan ulang mereka menggunakan Baum-Welch. Estimasi ulang secara komputasi lebih mahal daripada prediksi.

NRH
sumber
3

Beberapa materi tentang Perkiraan Awal HMM diberikan dalam

Lawrence R. Rabiner (Februari 1989). "Tutorial tentang Hidden Markov Models dan aplikasi terpilih dalam pengenalan ucapan". Prosiding IEEE 77 (2): 257–286. doi: 10.1109 / 5.18626 (Bagian VC)

Anda juga dapat melihat pada toolkit pemodelan Probabilistik untuk Matlab / Oktaf , terutama fungsi hmmFitEm di mana Anda dapat memberikan parameter awal Anda sendiri dari model atau hanya menggunakan (opsi 'nrandomRestarts'). Saat menggunakan 'nrandomRestarts', model pertama (pada langkah init) menggunakan:

  • Pasang campuran Gaussians melalui MLE / MAP (menggunakan EM) untuk data yang berkelanjutan;
  • Cocokkan campuran produk distribusi diskrit melalui MLE / MAP (menggunakan EM) untuk data diskrit;

model kedua, ketiga ... (pada langkah init) menggunakan parameter yang diinisialisasi secara acak dan hasilnya konvergen lebih lambat dengan nilai Log Likelihood yang lebih rendah.

Sergey
sumber