Apakah ada perangkat lunak pengenalan suara yang layak untuk Linux?

50

Versi singkat dari pertanyaan: Saya mencari perangkat lunak pengenalan suara yang berjalan di Linux dan memiliki akurasi dan kegunaan yang layak. Lisensi dan harga apa pun baik-baik saja. Seharusnya tidak dibatasi untuk perintah suara, karena saya ingin dapat menentukan teks.

Keterangan lebih lanjut:

Saya tidak puas mencoba yang berikut ini:

CMU Sphinx
CVoiceControl
Telinga
Julius
Kaldi (mis., Server Kaldi GStreamer )
IBM ViaVoice (digunakan untuk berjalan di Linux tetapi dihentikan tahun yang lalu)
NICO ANN Toolkit
OpenMindSpeech
RWTH ASR
berteriak
silvius (dibangun di atas alat pengenalan ucapan Kaldi)
Simon Listens
ViaVoice / Xvoice
Wine + Dragon NaturallySpeaking + NatLink + capung + damselfly
https://github.com/DragonComputer/Dragonfire : hanya menerima perintah suara

Semua solusi Linux asli yang disebutkan di atas memiliki akurasi dan kegunaan yang buruk (atau beberapa tidak mengizinkan dikte teks bebas tetapi hanya perintah suara). Dengan akurasi yang buruk, maksud saya akurasi jauh di bawah perangkat lunak pengenalan suara yang saya sebutkan di bawah ini untuk platform lain. Adapun Wine + Dragon NaturallySpeaking, dalam pengalaman saya itu terus menabrak, dan saya tampaknya bukan satu-satunya yang memiliki masalah seperti itu sayangnya.

Di Microsoft Windows saya menggunakan Dragon NaturallySpeaking, di Apple Mac OS XI menggunakan Apple Dictation dan DragonDictate, di Android saya menggunakan pengenalan suara Google, dan di iOS saya menggunakan pengenalan ucapan Apple bawaan.

Baidu Penelitian dirilis kemarin yang kode untuk perpustakaan pengenalan suara dengan menggunakan koneksionis Temporal Klasifikasi dilaksanakan dengan Torch. Tingkatan yang dicapai dari Gigaom menggembirakan seperti yang ditunjukkan pada tangkapan layar di bawah, tapi saya tidak mengetahui adanya pembungkus yang baik untuk membuatnya dapat digunakan tanpa beberapa pengkodean (dan kumpulan data pelatihan yang besar):

Ada beberapa proyek open-source yang sangat alfa:

https://github.com/mozilla/DeepSpeech (bagian dari proyek Vaani Mozilla: http://vaani.io ( mirror ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, sistem untuk mengontrol sistem Linux menggunakan Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (akan dirilis oleh Google, disebutkan di Interspeech 2018)

Saya juga menyadari upaya ini untuk melacak keadaan seni dan hasil terbaru (bibliografi) pada pengenalan ucapan. serta tolok ukur API pengenalan ucapan yang ada ini .

Saya mengetahui Aenea , yang memungkinkan pengenalan suara melalui Dragonfly di satu komputer untuk mengirim acara ke komputer lain, tetapi ada beberapa biaya latensi:

Saya juga mengetahui dua pembicaraan ini yang mengeksplorasi opsi Linux untuk pengenalan suara:

2016 - HARAPAN Kesebelas: Pengodean dengan Suara dengan Pengenalan Pidato Sumber Terbuka (David Williams-King)
2014 - Pycon: Menggunakan Python ke Kode dengan Suara (Tavis Rudd)

software-rec speech-recognition Franck Dernoncourt
sumber

2

Beberapa perincian tentang apa yang Anda temukan "tidak memuaskan" mungkin memajukan topik posting Anda yang menarik tetapi agak umum. Misalnya: secara spesifik apa yang menurut Anda tidak memuaskan tentang kombinasi "Wine + Dragon NaturallySpeaking"? (bagaimana itu gagal mereplikasi pengalaman Windows Anda?)

Theophrastus

1

@Theophrastus Pada dasarnya semua solusi Linux asli memiliki akurasi dan kegunaan yang buruk. Dengan akurasi yang buruk, maksud saya akurasi jauh di bawah perangkat lunak pengenalan suara yang saya sebutkan untuk platform lain. Adapun Wine + Dragon NaturallySpeaking, dalam pengalaman saya, itu terus menabrak, dan saya tampaknya bukan satu-satunya yang memiliki masalah seperti itu sayangnya ( appdb.winehq.org/… )

Franck Dernoncourt

1

Saya belum mencoba ini, tetapi kalau-kalau ada yang merasa berguna: github.com/Uberi/speech_recognition dan jasperproject.github.io dan github.com/benoitfragit/google2ubuntu

Hatshepsut

Apakah ada salah satu dari perangkat lunak ini yang memiliki alat baris perintah? Akan sangat menarik untuk menggabungkan pengenalan suara ke alat penekanan tombol dan mouse seperti xdotool ( github.com/jordansissel/xdotool ) atau xsendkey ( github.com/kyoto/sendkeys ).

baptx

13

Saat ini saya sedang bereksperimen dengan menggunakan koneksi KDE yang dikombinasikan dengan pengenalan ucapan Google di smartphone android saya.

KDE Connect memungkinkan Anda untuk menggunakan perangkat Android Anda sebagai perangkat input untuk komputer Linux Anda (ada juga beberapa fitur lainnya). Anda perlu menginstal aplikasi KDE connect dari Google play store di ponsel cerdas / tablet Anda dan menginstal kdeconnect dan indikator-kdeconnect di komputer Linux Anda. Untuk sistem Ubuntu instal berjalan sebagai berikut:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Kelemahan dari instalasi ini adalah menginstal banyak paket KDE yang tidak Anda perlukan jika Anda tidak menggunakan lingkungan desktop KDE.

Setelah Anda memasangkan perangkat android Anda dengan komputer Anda (mereka harus berada di jaringan yang sama), Anda dapat menggunakan keyboard android dan kemudian klik / tekan pada mic untuk menggunakan pengenalan ucapan Google. Saat Anda berbicara, teks akan mulai muncul di mana kursor Anda aktif di komputer Linux Anda.

Adapun hasilnya, mereka agak campur aduk untuk saya karena saya saat ini sedang menulis beberapa dokumen astrofisika teknis dan pengenalan suara Google sedang berjuang dengan jargon yang biasanya tidak Anda baca. Juga lupakan tentang mencari tahu tanda baca atau huruf besar yang tepat.

shockburner
sumber

4

Untuk saat ini, hanya Voice notebook yang berfungsi di Linux.

Alexei
sumber

2

Terima kasih, ini hanya berfungsi di browser Chrome.

Franck Dernoncourt

3

Sebagai seorang Linuxer lagi yang mencari program ucapan-ke-teks (dikte) yang bermanfaat, saya melihat ke speechpad.pw:

itu mengenali bahasa ibu saya dengan sangat baik
ini bekerja cepat dan sangat andal

Kerugian:

tentu saja itu adalah perangkat lunak berpemilik dan tertutup dari Google
layanan Google akan mendengarkan, memproses, dan seharusnya menyimpan setiap kata yang Anda ucapkan
audio dan teks akan diproses dan jelas disimpan oleh Google
speechpad.pw membutuhkan biaya berlangganan bulanan / kuarter / tahunan
speechpad.pw hanya berjalan sebagai tambahan ke browser Google Chrome - tidak ada browser lain

Jadi, speechpad.pw sangat eksklusif dan juga sumber tertutup dan juga terikat dengan Google yang kita semua kenal sebagai meta data tanpa tidur, informasi pribadi dan pengumpul konten pribadi.

Kerugian ini membuatnya menjadi aplikasi no-go bagi saya meskipun pengenalan wicara itu sendiri bekerja dengan sangat baik - jauh lebih baik daripada apa pun yang saya lihat sejauh ini.

terlalu
sumber

Terima kasih, ya kerugian besar, terutama yang hanya berfungsi di browser Chrome.

Franck Dernoncourt

1

Anda dapat menggunakan Google Documents di Chrome dan menggunakan opsi "Alat" »" Pengetikan Suara ... ". Mungkin persis perangkat lunak pengenal ucapan yang sama, tetapi gratis. Kemudian salin rekatkan hasil dari dokumen Anda ke mana pun Anda membutuhkan teks.

Alexis Wilke

2

Aplikasi Chrome "VoiceNote II" ( http://voicenote.in/ ) bekerja dengan baik pada mesin Xubuntu 16.04 saya. Tidak diperlukan pelatihan suara, dan pengaturannya sederhana. Satu pencarian untuk menemukannya, satu klik untuk menginstal, satu klik untuk membuat jalan pintas dan ke Desktop mengikatnya.

Indy Tech Fix
sumber

Terima kasih, hanya berfungsi di Google Chrome

Franck Dernoncourt

0

Saya sarankan menggunakan naga di ponsel atau tablet Anda, lalu mengirim surel kepada Anda sendiri. Ini adalah hambatan tetapi bekerja dan sangat akurat. Jika Anda bersikeras menggunakan Linux untuk ini, mendapatkan tampilan kedua akan membuat hidup lebih mudah untuk disalin dan dilewati.

Saya belum mencoba ini tetapi Anda mungkin dapat menggunakan atau mengadaptasi program Obrolan Bluetooth Python dengan naga di tablet / ponsel Anda. Mungkin juga ada aplikasi papan ketik jarak jauh untuk perangkat seluler yang dapat mendukung input dikte.

Saya akan bereksperimen dan mencoba kembali kepada Anda dengan sesuatu yang lebih pasti.

pengguna273470
sumber

0

Saya menggunakan aplikasi KD Connect. itu bekerja dengan cukup efektif! Saya dapat mengawasi monitor sambil berbicara dengan telepon di meja. Satu-satunya downside adalah bahwa ini dilakukan melalui keyboard Google. itu bukan gratis, asli, atau open source. Komentar ini telah diposting tanpa melakukan koreksi apa pun dan mengetik

Josh Levine
sumber

-2

Anda dapat menggunakan ucapan ke teks dalam aplikasi Linux Aplikasi ini menggunakan Google Speech Api dan modul integrasi biner untuk Linux 32 atau 64 bit. Anda dapat melihat presentasi singkat menggunakan alat speechpad.pw di Ubuntu

Pavel Popov
sumber

1

OP sedang mencari mesin pidato-ke-teks. Itu hanya pembungkus web-UI (dan yang buruk pada saat itu) di sekitar mesin STT.

Cerin

Apakah ada perangkat lunak pengenalan suara yang layak untuk Linux?

Jawaban: