Apa saja senon dalam Jaringan Saraf Tiruan?

9

Saya membaca makalah ini: penerjemah skype di mana mereka menggunakan CD-DNN-HMMs (Konteks bergantung pada Jaringan saraf dengan Model Hidden Markov). Saya dapat memahami ide proyek dan arsitektur yang telah mereka rancang tetapi saya tidak mengerti apa itu senones . Saya telah mencari definisi tetapi saya belum menemukan apa pun

—Kami mengusulkan model novel context-dependent (CD) untuk pengenalan suara kosakata besar (LVSR) yang memanfaatkan kemajuan terkini dalam menggunakan jaringan kepercayaan yang mendalam untuk pengenalan telepon. Kami mendeskripsikan arsitektur hybrid jaringan saraf tersembunyi model Pra-terlatih (DNN-HMM) yang dilatih sebelumnya yang melatih DNN untuk menghasilkan distribusi melalui senon (ikatan triphone state) sebagai hasilnya

Tolong jika Anda bisa memberi saya penjelasan tentang ini, saya akan sangat menghargainya.

EDIT:

Saya telah menemukan definisi ini di makalah ini :

Kami mengusulkan untuk memodelkan kejadian subfonetik dengan negara Markov dan memperlakukan negara dalam model Markov tersembunyi fonetik sebagai unit subfonetik dasar kami - senone . Model kata adalah gabungan dari senon yang bergantung pada negara dan senon yang dapat dibagikan ke berbagai model kata yang berbeda.

Saya kira mereka digunakan di bagian Model Hidden Markov dari arsitektur di kertas pertama. Apakah mereka negara bagian HMM? Output dari DNN?

davidivad
sumber
Senone adalah istilah pengenalan suara. Apakah itu definisi yang Anda cari, atau klarifikasi tentang bagaimana mereka dimodelkan dalam makalah itu?
Sean Easter
Lebih mirip aplikasi itu ke DNN-HMM. Mereka adalah negara bagian di HMM tetapi juga de output dari DNN?
davidivad
1
Artikel ini menjelaskan tentang beberapa senones
Mike Hunter

Jawaban:

7

Inilah yang akhirnya saya mengerti:

Dalam arsitektur ini DNN digunakan untuk mengubah suara menjadi telepon.

Dalam fonetik dan linguistik, kata telepon dapat merujuk pada bunyi atau gerakan bicara apa pun yang dianggap sebagai peristiwa fisik tanpa memperhatikan tempatnya dalam fonologi suatu bahasa.

masukkan deskripsi gambar di sini

Lapisan terakhir DNN dibentuk oleh semua ponsel yang memungkinkan, yang memiliki satu neuron output per telepon. Aktivasi neuron-neuron ini adalah probabilitas dari gangguan input yang sesuai dengan telepon itu.

Kombinasi dari aktivasi ini adalah input dari Hidden Markov Model dan menetapkan senones dari HMM, yang memperoleh daftar teks kandidat dengan menggunakan kamus.

Senon adalah status HMM, pada gambar berikut, senon adalah x1 x2 dan x3.

masukkan deskripsi gambar di sini

Harap perbaiki saya jika saya mengatakan sesuatu yang salah, semoga membantu!

davidivad
sumber
1
@daviddavid, saya menambahkan jawaban yang seharusnya menjelaskan sedikit lebih jelas apa itu senone. Seluruh hal pemodelan senone / akustik agak berantakan dalam literatur.
Emiswelt
2

Dalam Speech Recognition, kami sering menyertakan beberapa konteks tentang ponsel tetangga saat memodelkan ponsel tertentu. Ini berarti bahwa sistem kami tidak hanya tahu ponsel untuk A, Bdan sebagainya, tetapi memiliki konsep untuk E-then-A, O-then-B, X-then-Adan sebagainya.

Unit-unit yang bergantung pada konteks ini disebut senon dalam literatur , yang tentu saja merupakan kata yang dibuat-buat.

Untuk sistem pengenalan suara, senon ini biasanya sama dengan status HMM dari model akustik, yang dapat diprediksi oleh jaringan saraf, jika pendekatan hibrid DNN / HMM untuk pemodelan akustik digunakan.

Istilah Senones diciptakan oleh para pengembang alat pengenalan ucapan Janus. Itu kemudian diadopsi oleh Dong Yu dan Li Deng untuk buku ASR mereka. Itu pada waktu sebelum NNs digunakan untuk pemodelan akustik. Karena itu istilahnya membingungkan.

Emiswelt
sumber
1

"Senones" dinamai oleh saya pada tahun 1992. Lihat makalah ICASSP 1992 saya: https://ieeexplore.ieee.org/document/225979 Itu hanya nama mewah untuk sekelompok negara Markov bersama, yang mewakili acara akustik serupa. Itu berasal dari kontras dengan fenones IBM, di mana "f" berarti "bingkai" dan "s" saya berarti "keadaan".

Mei-Yuh Hwang
sumber
silakan tambahkan referensi lengkap untuk tautan Anda seandainya mati di masa mendatang
Antoine
0

Ide awal datang dari karya Eurospeech 1991 saya (sekarang disebut Interspeech), di mana saya menggunakan pengelompokan top-down di negara-negara Markov. Anda dapat menemukan laporan teknologi CMU saya pada tahun 1991 di sini: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d

Pada tahun 1992, saya memutuskan untuk memindahkannya ke pengelompokan pohon sehingga orang dapat memodelkan telepon cd juga.

Mei-Yuh Hwang
sumber
silakan tambahkan referensi lengkap untuk tautan Anda seandainya mati di masa mendatang
Antoine