Bagaimana saya bisa mengekstrak teks dari gambar?
Saya tidak berbicara tentang file yang dipindai, tetapi berbagai gambar taman, seperti ketika Anda mengambil gambar papan tulis di kelas, dan itu ditulis tangan dengan baik; atau ketika Anda memotret halaman dari buku resep dan ingin resep dalam format teks.
Adakah perangkat lunak gratis dan terbuka untuk itu?
Saya mencoba tesseract, dan hasilnya mengerikan.
software-recommendation
images
ocr
Strapakowsky
sumber
sumber
Jawaban:
Tindakan mengekstraksi teks dari gambar disebut
OCR
dan Ubuntu memiliki halaman wiki yang didedikasikan untuk OCR . Dari halaman itu:Alat OCR yang tersedia
Repositori Ubuntu Universe berisi alat OCR berikut:
Ubuntu multiverse respositories juga mengandung:
Beberapa paket sudah usang, tetapi yang baru tidak resmi dapat ditemukan di Alex_P PPA (kode menambahkan PPA: ppa: alex-p / notesalexp). Jika Anda tidak pernah menggunakan PPA, periksa cara menambahkan perangkat lunak dari PPA .
sunting: Seperti yang ditunjukkan dalam komentar, Clara OCR juga ada, tetapi ada stuk di Hardy dan situs web mereka memiliki 2009 sebagai yang terakhir diperbarui.
sumber
OCR
berfungsi paling baik jika Anda tahu bagaimana gambar dibuat dan Anda sangat berpengalaman dalam menggunakan perangkat lunak yang Anda gunakan (yang terakhir menjadi alasan saya tidak pernah sempat menggunakannya).tesseract-ocr
akan menjadi yang terbaik dibandingkan dengan yang lainnya. Untuk Instalasi, jalankan perintahsudo apt-get install tesseract-ocr
.Penggunaan adalah
tesseract filename.jpg output.txt
.Perintah di atas akan menghasilkan
output.txt
.Anda mungkin mempertimbangkan untuk memilih bahasa yang sesuai. Dalam hal ini Anda harus menginstal
tesseract-ocr-LANG
paket, di manaLANG
kode huruf ISO 639-2 tiga huruf . Saat ini Anda memiliki 123 bahasa pada 18,04 repo. Kemudian gunakan misalnya:sumber