Saya tahu bahwa Model Markov Tersembunyi (HMM) digunakan dalam pengenalan ucapan dan memahaminya sampai batas tertentu. Namun, yang saya tidak tahu adalah bagaimana input (ucapan) "ditransformasikan" menjadi vektor yang kemudian digunakan dalam HMM.
Bagaimana Anda mendapatkan vektor dari input suara? Apakah vektor ini dapat dibaca oleh manusia?
speech-recognition
Bodoh
sumber
sumber
Jawaban:
Cara pengenalan suara dilakukan dengan HTK (atau alat lain) mirip dengan cara pengenalan suara dilakukan di otak. Ketika Anda mendengar sebuah kata, Anda langsung memecahnya menjadi ponsel penyusunnya dan kemudian membandingkan ponsel dengan "model" mental internal dari ponsel tersebut . "Model-model" ini dibangun selama bertahun-tahun mendengarkan pembicaraan dan memberi Anda kemampuan untuk membedakan antara kalimat-kalimat yang terdengar mirip seperti "Cara merusak pantai yang bagus" dan "Cara mengenali ucapan". Pengenalan ucapan dengan HTK atau skema berbasis model lainnya bekerja dengan cara yang sama. Di sini, dalam beberapa langkah, adalah bagaimana Anda melakukannya:
Semua langkah di atas sangat penting untuk menyelesaikan tugas pengenalan ucapan. Dengan menguraikan suara menjadi vektor fitur, Anda membawanya ke ruang model, memberikannya representasi yang membuatnya lebih cocok untuk membuat-model-keluar-dari daripada representasi lain (katakanlah representasi amplitudo waktu). Sebagian besar representasi tersebut terletak pada frekuensi, atau domain frekuensi-waktu. Salah satu representasi yang paling populer adalah MFCC (Koefisien Frekuensi Cepstral Mel). Di satu sisi, teknik ini meniru respons pendengaran manusia dengan seperangkat filter. Sinyal input didekomposisi dengan set filter yang memiliki jarak logaritmik dari frekuensi pusatnya. Koefisien MFCC dari satu kalimat (misalnya) kemudian digunakan untuk memodelkan masing-masing ponsel dari mana kalimat itu dibuat. Sebagai contoh, pertimbangkan,
Kalimat: HI. Deskripsi fonetik: hh aa ey
Ketika Anda memasukkan koefisien MFCC ke dalam HTK, ia akan mengaitkan koefisien MFCC dari sebagian kalimat dengan hh, yang lain dengan aa dan seterusnya. Ketika ini diulang berkali-kali, model untuk ponsel mulai terbentuk.
HTK menggunakan alat
HCopy
untuk mengubah kalimat input menjadi representasi fitur-vektornya. Ada banyak "rasa" untuk MFCC juga (representasi E_D_A atau E_D_A_Z). Sebaiknya baca dokumentasiHCopy
di dalam htkbook.Koefisien MFCC ditulis ke file dengan ekstensi
.mfc
oleh HTK. Tidak mungkin membaca file itu menggunakan salah satu editor teks karena (saya pikir) koefisien ditulis dalam biner. Anda dapat mencoba membaca file denganC
.HTH.
sumber
edit
tombol ini secara gratis pada jawabannya, atau lebih baik lagi, berikan kami jawaban Anda sendiri. Dan ya, jika pertanyaan itu sendiri tidak akurat, jawabannya juga akan kurang akurat. Itu telah dibahas di bagian komentar itu sendiri.Setiap gelombang dapat diuraikan menjadi tambahan dari banyak gelombang lainnya. Menggunakan transformasi Fourier, Anda dapat menganalisis gelombang ke dalam komponen frekuensinya. Amplitudo komponen frekuensi ini kemudian dapat digunakan sebagai vektor. Inilah dokumentasi tentang kelas Sphinx yang melakukan ini dan inilah penjelasan visual yang bagus dari transformasi Fourier.
sumber