Pengenalan ucapan tidak serumit contoh yang Anda pikirkan.
Pertama, bayangkan membuat Rantai Markov (MC) yang melakukan pengenalan teks. Program Anda membaca banyak teks (sempurna, tanpa kesalahan) dan menghitung status (kata) dan perubahan status (kata berikutnya). Kedengarannya seperti Anda sudah mengerti ini. Anda sekarang dapat menghasilkan teks, atau memberikan beberapa teks memprediksi kata berikutnya menggunakan status dan probabilitas transisi dari MC Anda.
Sekarang bayangkan Anda ingin menggunakan MC Anda dengan pidato. Anda hanya akan meminta orang membaca teks yang mirip dengan MC Anda dan Anda siap, bukan? Yah ... Kecuali bahwa mereka akan mengucapkan kata-kata secara berbeda: di mana teks tertulis mengatakan "kentang", Anda benar-benar akan mendengar "po-TAY-toh" dan "po-TAH-toh" dan "pu-TAY -untuk ", dll. Dan sebaliknya: teks" ate "dan" delapan "mewakili dua keadaan yang berbeda, tetapi (biasanya) diucapkan sama.
Algoritme Anda tidak lagi melihat status (kata-kata) yang mendasarinya, tetapi melihat distribusi probabilitas pengucapan untuk setiap kata. MC asli Anda tersembunyi di balik pengucapan, dan sekarang model Anda perlu dua lapis.
Jadi Anda bisa membuat banyak orang membacakan teks yang Anda gunakan untuk pelatihan asli Anda, Anda bisa mendapatkan distribusi untuk pengucapan untuk setiap kata, dan kemudian menggabungkan model asli Anda dengan model pengucapan dan Anda memiliki Hidden Markov Model ( sebuah HMM).
Kebanyakan masalah dunia nyata akan seperti ini, karena dunia nyata cenderung berisik. Anda tidak akan benar-benar tahu keadaan di mana sesuatu berada. Sebaliknya, Anda akan mendapatkan berbagai indikator untuk setiap negara: kadang-kadang indikator yang sama untuk negara bagian yang berbeda ("makan" dan "delapan") dan kadang-kadang indikator yang berbeda untuk keadaan yang sama ("pu-TAY-toe" dan "pah-tah-TOE"). Oleh karena itu, HMM lebih cocok untuk masalah dunia nyata.
[Dua catatan samping: 1) pengenalan suara yang sebenarnya bekerja pada tingkat fonem, bukan tingkat kata, dan 2) Saya percaya bahwa HMM adalah raja bukit untuk pengenalan suara, tetapi baru-baru ini dicopot oleh jaringan saraf yang dalam.]