Aplikasi pengenalan suara untuk mengkonversi MP3 ke teks?

27

Adakah yang tahu aplikasi yang bisa mengubah audio menjadi teks? Saya menjalankan ubuntu 12.04 LTS.

Kopano
sumber
Saya menganggap itu adalah teks yang diucapkan. Bahasa manakah teks itu berada?
Martin Ueding
Teks pidato dalam bahasa Inggris sederhana.
Kopano

Jawaban:

21

Perangkat lunak yang dapat Anda gunakan adalah CMUSphinx . Tidak seperti yang disarankan dalam jawaban lain, Julius tidak cocok karena memerlukan model. Model untuk pengenalan ucapan kosakata besar tidak tersedia untuk Julius.

Anda dapat menggunakan pocketsphinx untuk mengonversi file audio. Kedua perintah itu harus melakukan pekerjaan. Pertama Anda mengonversi file ke format yang diperlukan dan kemudian Anda mengenalinya:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Menjalankan pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Hasil akan disimpan di result.txt.

Nikolay Shmyrev
sumber
juga, sebagai tambahan untuk jawaban ini, ada demo keren dari keduanya speech recognitiondan voice commandalat - alat di sini: youtube.com/...
Daithí
Bagaimana Anda menambahkan model akustik ke sistem?
jarno
Anda cukup mengunduhnya dan membongkar, tidak ada yang namanya "tambahkan ke sistem"
Nikolay Shmyrev
@NikolayShmyrev Di mana saya harus membukanya sehingga pocketsphinx_continuous menemukannya?
jarno
4
Yah, saya menginstal paket pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj dan pocketsphinx-lm-en-hub4 di repositori semesta Ubuntu 14.04. Kemudian pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logberhasil. Mungkin itu bukan paket yang optimal, tetapi itu adalah pasangan terbaik yang bisa saya temukan di repositori.
jarno
12

Saya tahu ini sudah tua, tetapi untuk memperluas jawaban Nikolay dan mudah-mudahan menghemat waktu seseorang di masa depan, untuk mendapatkan versi pocketsphinx yang terkini, Anda perlu mengkompilasinya dari repositori github atau sourceforge (tidak yakin yang terus diperbarui). Catatan -j8 berarti menjalankan 8 pekerjaan terpisah secara paralel jika memungkinkan; jika Anda memiliki lebih banyak core CPU, Anda dapat menambah jumlahnya.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Kemudian, dari: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ unduh versi terbaru dari cmusphinx-en-us-....tar.gzdanen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Kemudian Anda akhirnya dapat melanjutkan dengan langkah-langkah dari jawaban Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx berfungsi dengan baik. Saya tidak akan bergantung padanya untuk membuat versi teks yang dapat dibaca, tetapi cukup baik bahwa Anda dapat mencarinya jika Anda mencari kutipan tertentu. Itu bekerja sangat baik jika Anda menggunakan algoritma pencarian seperti Xapian ( http://www.lesbonscomptes.com/recoll/ ) yang menerima wildcard dan tidak memerlukan ekspresi pencarian yang tepat.

Semoga ini membantu.

Jonathan Perry-Houts
sumber
4
setiap hal bekerja seperti pesona tetapi dalam kasus saya, saya harus menjalankan perintah berikut untuk memperbaiki pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare
Ini juga direkomendasikan di cmusphinx.github.io/wiki/tutorialpocketsphinx/…
andrybak
11

Jika Anda ingin mengubah pidato menjadi teks, Anda dapat mencoba membuka Pusat Perangkat Lunak Ubuntu dan mencari Julius

Deskripsi

"Julius" adalah perangkat lunak decoder pengenal ucapan kontinu (LVCSR) kosakata dua-kinerja tinggi yang berkinerja tinggi untuk para peneliti dan pengembang yang terkait dengan pidato.

Atau opsi lain yang tidak ada di Pusat Perangkat Lunak adalah Simon

... adalah program pengenalan ucapan sumber terbuka dan menggantikan mouse dan keyboard.

Tautan Referensi

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

CoalaWeb
sumber
1

Anda dapat menggunakan panel transkripsi speechpad.pw

Lihat video menggunakan transkripsi

Alexei
sumber
Itu terlihat keren walaupun saya tidak berpikir itu menjawab pertanyaan yang mana untuk mendapatkan transkripsi file yang ada. Yang sedang berkata, saya baru saja mencoba Sphinx dan gagal total ... transkripsi itu salah 99.9%.
Alexis Wilke