Saya membaca makalah ini: penerjemah skype di mana mereka menggunakan CD-DNN-HMMs (Konteks bergantung pada Jaringan saraf dengan Model Hidden Markov). Saya dapat memahami ide proyek dan arsitektur yang telah mereka rancang tetapi saya tidak mengerti apa itu senones . Saya telah mencari definisi tetapi saya belum menemukan apa pun
—Kami mengusulkan model novel context-dependent (CD) untuk pengenalan suara kosakata besar (LVSR) yang memanfaatkan kemajuan terkini dalam menggunakan jaringan kepercayaan yang mendalam untuk pengenalan telepon. Kami mendeskripsikan arsitektur hybrid jaringan saraf tersembunyi model Pra-terlatih (DNN-HMM) yang dilatih sebelumnya yang melatih DNN untuk menghasilkan distribusi melalui senon (ikatan triphone state) sebagai hasilnya
Tolong jika Anda bisa memberi saya penjelasan tentang ini, saya akan sangat menghargainya.
EDIT:
Saya telah menemukan definisi ini di makalah ini :
Kami mengusulkan untuk memodelkan kejadian subfonetik dengan negara Markov dan memperlakukan negara dalam model Markov tersembunyi fonetik sebagai unit subfonetik dasar kami - senone . Model kata adalah gabungan dari senon yang bergantung pada negara dan senon yang dapat dibagikan ke berbagai model kata yang berbeda.
Saya kira mereka digunakan di bagian Model Hidden Markov dari arsitektur di kertas pertama. Apakah mereka negara bagian HMM? Output dari DNN?
Jawaban:
Inilah yang akhirnya saya mengerti:
Dalam arsitektur ini DNN digunakan untuk mengubah suara menjadi telepon.
Lapisan terakhir DNN dibentuk oleh semua ponsel yang memungkinkan, yang memiliki satu neuron output per telepon. Aktivasi neuron-neuron ini adalah probabilitas dari gangguan input yang sesuai dengan telepon itu.
Kombinasi dari aktivasi ini adalah input dari Hidden Markov Model dan menetapkan senones dari HMM, yang memperoleh daftar teks kandidat dengan menggunakan kamus.
Senon adalah status HMM, pada gambar berikut, senon adalah x1 x2 dan x3.
Harap perbaiki saya jika saya mengatakan sesuatu yang salah, semoga membantu!
sumber
Dalam Speech Recognition, kami sering menyertakan beberapa konteks tentang ponsel tetangga saat memodelkan ponsel tertentu. Ini berarti bahwa sistem kami tidak hanya tahu ponsel untuk
A
,B
dan sebagainya, tetapi memiliki konsep untukE-then-A
,O-then-B
,X-then-A
dan sebagainya.Unit-unit yang bergantung pada konteks ini disebut senon dalam literatur , yang tentu saja merupakan kata yang dibuat-buat.
Untuk sistem pengenalan suara, senon ini biasanya sama dengan status HMM dari model akustik, yang dapat diprediksi oleh jaringan saraf, jika pendekatan hibrid DNN / HMM untuk pemodelan akustik digunakan.
Istilah Senones diciptakan oleh para pengembang alat pengenalan ucapan Janus. Itu kemudian diadopsi oleh Dong Yu dan Li Deng untuk buku ASR mereka. Itu pada waktu sebelum NNs digunakan untuk pemodelan akustik. Karena itu istilahnya membingungkan.
sumber
"Senones" dinamai oleh saya pada tahun 1992. Lihat makalah ICASSP 1992 saya: https://ieeexplore.ieee.org/document/225979 Itu hanya nama mewah untuk sekelompok negara Markov bersama, yang mewakili acara akustik serupa. Itu berasal dari kontras dengan fenones IBM, di mana "f" berarti "bingkai" dan "s" saya berarti "keadaan".
sumber
Ide awal datang dari karya Eurospeech 1991 saya (sekarang disebut Interspeech), di mana saya menggunakan pengelompokan top-down di negara-negara Markov. Anda dapat menemukan laporan teknologi CMU saya pada tahun 1991 di sini: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d
Pada tahun 1992, saya memutuskan untuk memindahkannya ke pengelompokan pohon sehingga orang dapat memodelkan telepon cd juga.
sumber