Versi singkat dari pertanyaan: Saya mencari perangkat lunak pengenalan suara yang berjalan di Linux dan memiliki akurasi dan kegunaan yang layak. Lisensi dan harga apa pun baik-baik saja. Seharusnya tidak dibatasi untuk perintah suara, karena saya ingin dapat menentukan teks.
Keterangan lebih lanjut:
Saya tidak puas mencoba yang berikut ini:
- CMU Sphinx
- CVoiceControl
- Telinga
- Julius
- Kaldi (mis., Server Kaldi GStreamer )
- IBM ViaVoice (digunakan untuk berjalan di Linux tetapi dihentikan tahun yang lalu)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- berteriak
- silvius (dibangun di atas alat pengenalan ucapan Kaldi)
- Simon Listens
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + capung + damselfly
- https://github.com/DragonComputer/Dragonfire : hanya menerima perintah suara
Semua solusi Linux asli yang disebutkan di atas memiliki akurasi dan kegunaan yang buruk (atau beberapa tidak mengizinkan dikte teks bebas tetapi hanya perintah suara). Dengan akurasi yang buruk, maksud saya akurasi jauh di bawah perangkat lunak pengenalan suara yang saya sebutkan di bawah ini untuk platform lain. Adapun Wine + Dragon NaturallySpeaking, dalam pengalaman saya itu terus menabrak, dan saya tampaknya bukan satu-satunya yang memiliki masalah seperti itu sayangnya.
Di Microsoft Windows saya menggunakan Dragon NaturallySpeaking, di Apple Mac OS XI menggunakan Apple Dictation dan DragonDictate, di Android saya menggunakan pengenalan suara Google, dan di iOS saya menggunakan pengenalan ucapan Apple bawaan.
Baidu Penelitian dirilis kemarin yang kode untuk perpustakaan pengenalan suara dengan menggunakan koneksionis Temporal Klasifikasi dilaksanakan dengan Torch. Tingkatan yang dicapai dari Gigaom menggembirakan seperti yang ditunjukkan pada tangkapan layar di bawah, tapi saya tidak mengetahui adanya pembungkus yang baik untuk membuatnya dapat digunakan tanpa beberapa pengkodean (dan kumpulan data pelatihan yang besar):
Ada beberapa proyek open-source yang sangat alfa:
- https://github.com/mozilla/DeepSpeech (bagian dari proyek Vaani Mozilla: http://vaani.io ( mirror ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, sistem untuk mengontrol sistem Linux menggunakan Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (akan dirilis oleh Google, disebutkan di Interspeech 2018)
Saya juga menyadari upaya ini untuk melacak keadaan seni dan hasil terbaru (bibliografi) pada pengenalan ucapan. serta tolok ukur API pengenalan ucapan yang ada ini .
Saya mengetahui Aenea , yang memungkinkan pengenalan suara melalui Dragonfly di satu komputer untuk mengirim acara ke komputer lain, tetapi ada beberapa biaya latensi:
Saya juga mengetahui dua pembicaraan ini yang mengeksplorasi opsi Linux untuk pengenalan suara:
- 2016 - HARAPAN Kesebelas: Pengodean dengan Suara dengan Pengenalan Pidato Sumber Terbuka (David Williams-King)
- 2014 - Pycon: Menggunakan Python ke Kode dengan Suara (Tavis Rudd)
sumber
Jawaban:
Saat ini saya sedang bereksperimen dengan menggunakan koneksi KDE yang dikombinasikan dengan pengenalan ucapan Google di smartphone android saya.
KDE Connect memungkinkan Anda untuk menggunakan perangkat Android Anda sebagai perangkat input untuk komputer Linux Anda (ada juga beberapa fitur lainnya). Anda perlu menginstal aplikasi KDE connect dari Google play store di ponsel cerdas / tablet Anda dan menginstal kdeconnect dan indikator-kdeconnect di komputer Linux Anda. Untuk sistem Ubuntu instal berjalan sebagai berikut:
Kelemahan dari instalasi ini adalah menginstal banyak paket KDE yang tidak Anda perlukan jika Anda tidak menggunakan lingkungan desktop KDE.
Setelah Anda memasangkan perangkat android Anda dengan komputer Anda (mereka harus berada di jaringan yang sama), Anda dapat menggunakan keyboard android dan kemudian klik / tekan pada mic untuk menggunakan pengenalan ucapan Google. Saat Anda berbicara, teks akan mulai muncul di mana kursor Anda aktif di komputer Linux Anda.
Adapun hasilnya, mereka agak campur aduk untuk saya karena saya saat ini sedang menulis beberapa dokumen astrofisika teknis dan pengenalan suara Google sedang berjuang dengan jargon yang biasanya tidak Anda baca. Juga lupakan tentang mencari tahu tanda baca atau huruf besar yang tepat.
sumber
Untuk saat ini, hanya Voice notebook yang berfungsi di Linux.
sumber
Sebagai seorang Linuxer lagi yang mencari program ucapan-ke-teks (dikte) yang bermanfaat, saya melihat ke speechpad.pw:
Kerugian:
Jadi, speechpad.pw sangat eksklusif dan juga sumber tertutup dan juga terikat dengan Google yang kita semua kenal sebagai meta data tanpa tidur, informasi pribadi dan pengumpul konten pribadi.
Kerugian ini membuatnya menjadi aplikasi no-go bagi saya meskipun pengenalan wicara itu sendiri bekerja dengan sangat baik - jauh lebih baik daripada apa pun yang saya lihat sejauh ini.
sumber
Aplikasi Chrome "VoiceNote II" ( http://voicenote.in/ ) bekerja dengan baik pada mesin Xubuntu 16.04 saya. Tidak diperlukan pelatihan suara, dan pengaturannya sederhana. Satu pencarian untuk menemukannya, satu klik untuk menginstal, satu klik untuk membuat jalan pintas dan ke Desktop mengikatnya.
sumber
Saya sarankan menggunakan naga di ponsel atau tablet Anda, lalu mengirim surel kepada Anda sendiri. Ini adalah hambatan tetapi bekerja dan sangat akurat. Jika Anda bersikeras menggunakan Linux untuk ini, mendapatkan tampilan kedua akan membuat hidup lebih mudah untuk disalin dan dilewati.
Saya belum mencoba ini tetapi Anda mungkin dapat menggunakan atau mengadaptasi program Obrolan Bluetooth Python dengan naga di tablet / ponsel Anda. Mungkin juga ada aplikasi papan ketik jarak jauh untuk perangkat seluler yang dapat mendukung input dikte.
Saya akan bereksperimen dan mencoba kembali kepada Anda dengan sesuatu yang lebih pasti.
sumber
Saya menggunakan aplikasi KD Connect. itu bekerja dengan cukup efektif! Saya dapat mengawasi monitor sambil berbicara dengan telepon di meja. Satu-satunya downside adalah bahwa ini dilakukan melalui keyboard Google. itu bukan gratis, asli, atau open source. Komentar ini telah diposting tanpa melakukan koreksi apa pun dan mengetik
sumber
Anda dapat menggunakan ucapan ke teks dalam aplikasi Linux Aplikasi ini menggunakan Google Speech Api dan modul integrasi biner untuk Linux 32 atau 64 bit. Anda dapat melihat presentasi singkat menggunakan alat speechpad.pw di Ubuntu
sumber