Saya selalu menemukan teknologi OCR berada di belakang pada sistem open source. Saya juga telah menyaksikan proyek Ocropus sejak masih bayi. Saya sudah mencoba apa yang saya dengar adalah mesin OCR terbaik yang tersedia untuk Linux, Tesseract , dan merasa sangat kurang untuk dokumen bisnis. Apakah ada implementasi OCR lain yang lebih menjanjikan? Bagaimana dengan tujuan yang lebih penuh harapan untuk menafsirkan tulisan tangan? Apa yang mungkin pada sistem * nix di bidang ini?
opensource-projects
ocr
documents
jjclarkson
sumber
sumber
Jawaban:
Tesseract
Pada 2018, perangkat lunak OCR open source terbaik yang tersedia adalah Tesseract 4 (beta) dengan model OCR jaringan saraf LSTM baru . Kinerja OCR-nya jauh lebih baik daripada model OCR sebelumnya yang digunakan dalam versi 3.
Contoh (menghasilkan file PDF
output.pdf
dengan lapisan teks untuk dokumen Jerman yang dipindai):Cetak teks yang dikenali ke stdout:
Daftar bahasa yang diinstal:
Dukungan untuk cukup banyak bahasa / skrip tersedia dalam bentuk kumpulan data terlatih yang dapat diunduh , misalnya ada set data untuk Fraktur.
Dengan model LSTM baru, Tesseract mengambil beberapa inspirasi dari proyek penelitian OCRopus .
Tesseract versi 3 berkinerja relatif buruk bahkan pada gambar input berkualitas baik, yaitu seringkali mendeteksi karakter tunggal dalam piksel debu (di luar konteks teks apa pun) dan dengan mudah memperkenalkan kesalahan karakter tunggal dengan kata-kata terkenal.
Runcing
Kinerja Cuneiform OCR tidak seburuk itu, tetapi tidak dipelihara secara aktif (rilis terakhir pada tahun 2011, versi 1.1) dan mudah macet dan memiliki beberapa masalah lain:
Anda dapat menonaktifkan algoritme tata letak seperti ini:
(
-l
menentukan bahasa dokumen sumber)ocrad
Teks dicetak secara default ke stdout.
Dalam dokumen bisnis, ia kehilangan kata yang digarisbawahi, di mana tulisan paku / tesseract / gocr tidak.
gocr
Teks dicetak secara default ke stdout.
Perangkat keras
Sane memiliki dukungan yang sangat baik untuk banyak pemindai umpan dokumen otomatis (ADF), misalnya untuk yang Avision dan Fujitsu .
Disertakan dengan Sane adalah
scanimage
program baris perintah yang dapat Anda gunakan untuk membangun pipa pemindaian skrip (lih. Mis.adf2pdf.py
Skrip saya ).sumber
Saya menemukan pertanyaan serupa di StackOverflow dan Asprise OCR SDK , salah satu produk komersial yang terhubung , menawarkan versi Linux.
sumber
Ada beberapa alat baris perintah OCR yang populer:
Tesseract ( ReadMe , FAQ ) (Python)
Juga tersedia untuk: Tesseract .NET , Tesseract iOS
Pemakaian:
Contoh: Jadikan PDF yang dapat dicari (OCR) melalui baris perintah / skrip
GOCR
OCRopus ™ ( FAQ ) (ditulis dengan Python, NumPy, dan SciPy)
Tessnet2 (Sumber terbuka, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Lainnya sudah menyarankan: ABBYY CLI OCR untuk Linux , Asprise OCR .
Baca juga:
Untuk daftar yang lebih lengkap, periksa: Daftar perangkat lunak pengenalan karakter optik di Wikipedia.
sumber
... OCR lebih dari "hanya pengenalan karakter". Penanganan gambar, preprocessing - analisis halaman / tata letak untuk menemukan teks, gambar, tabel atau barcode. Untuk pengakuan, Anda harus berurusan dengan berbagai font, ukuran, dan bahasa. Ini penting karena untuk mendapatkan hasil yang baik Anda harus menggunakan kamus dan definisi bahasa. Akhirnya orang mengharapkan lebih banyak opsi ekspor daripada teks (mis. XML, RTF, atau PDF yang dapat dicari). Ada beberapa opsi komersial untuk SDK, tetapi tidak murah dan gratis.
Baru-baru ini saya menemukan CLI OCR untuk Linux dari ABBYY . Ada uji coba 100 halaman gratis.
sumber
Jika Anda memiliki anggaran, saya sangat merekomendasikan ABBYY FineReader Engine CLI untuk Linux . Perusahaan kami telah menggunakannya dalam aplikasi web kami selama setahun dan kami berencana untuk memperbarui lisensi. Kualitas pengenalan yang sangat bagus, antarmuka baris perintah, pengenalan dalam banyak bahasa.
sumber