Apa solusi OCR terbaik dan paling sederhana?

78

Saya ingin memindai sejumlah besar kertas yang saya miliki tergeletak di sekitar, dengan kerumitan sesedikit mungkin. Saya ingin mengonversinya menjadi gambar menggunakan Simple Scan, lalu mengonversinya menjadi teks menggunakan OCR. Apakah ada aplikasi OCR yang bagus dengan GUI yang akan memberi saya hasil yang baik dengan menekan tombol?

Bou
sumber
Kami benar-benar membutuhkan banyak pengerjaan ulang di utas ini. Begitu banyak hal-hal lama / depresiasi / .... Tidak ada tes satu-liner. Sebagian besar hasil copy / paste di sini. Tidak ada jaminan kualitas.
Léo Léopold Hertz 준영
Pada tahun 2018, solusi OCR yang paling sederhana adalah menggunakan api oCR online : Google Vision OCR, Azure OCR atau OCR API ruang gratis. Semua menyediakan hasil OCR yang sangat berkualitas - tentu saja hanya jika aplikasi / penggunaan Anda memungkinkan solusi cloud. .
Nic Endo

Jawaban:

70
  • GOCR dari adalah program OCR (Pengenalan Karakter Optik). Mengkonversi gambar teks yang dipindai kembali ke file teks.

  • CLARA adalah pilihan grafis lain yang bagus.

  • OCRAD dari adalah OCR dapat digunakan sebagai aplikasi konsol yang berdiri sendiri, atau sebagai backend ke program lain.

  • KOOKA dari adalah aplikasi KDE tetapi berfungsi dengan baik, selain itu Anda harus menginstal program OCR aktual seperti GOCR dan OCRAD. Setelah menginstal Kooka dan program OCR, Anda harus mengarahkan Kooka ke lokasi pemasangan OCR agar dapat menginstal ubah JPEG menjadi teks.

  • OCRFeeder dari adalah analisis tata letak dokumen dan sistem pengenalan karakter optik.

  • Tesseract dari adalah utilitas baris perintah dan sangat mudah digunakan. Anda dapat menginstal paket bahasa tesseract-ocr-eng dari sini .

Lihat halaman ini .

Catatan:
Untuk menjalankan terminal goto tesseract dan ketik yang berikut ini

tesseract imagefile.tif outputfile.txt

Tesseract hanya dapat membaca file TIFF - jika Anda punya JPEG atau PDF atau apa pun, Anda harus mengonversinya. Selain itu, ekstensi nama file harus .tif, bukan .tiff, jika tidak, kesalahan tesseract out.

karthick87
sumber
1
Jika bahasa lisan Anda bukan bahasa Inggris? apakah ada ekstensi untuk bahasa lain?
Vassilis
3
@Vassilis: Sistem OCR independen terhadap bahasa karena mereka mengenali karakter, bukan kata-kata. Namun, jika alfabet Anda tidak memiliki karakter Latin1 (seperti cyrillic) maka mungkin akan terlewatkan.
OpenNingia
2
@OpenNingia: Bahasa dapat menjadi penting, bahkan dengan sistem penulisan hanya menggunakan huruf latin. Ini membantu OCR untuk membedakan antara surat-surat yang ambigu.
Frédéric Grosshans
13
Pertanyaan / jawaban seperti itu benar-benar mengacaukan askubuntu. Orang itu bertanya "Apa yang terbaik, solusi OCR paling sederhana" bukan "apa saja aplikasi OCR yang tersedia untuk Linux". Solusi ini seharusnya tidak diterima! Sangat membingungkan dan tidak membantu.
Alin Andrei
1
Ubuntu saat ini tesseract(3.04.00 pada Ubuntu 15.10) tidak memiliki masalah dengan PNGfile input. ia menerima JPGfile, tetapi memberikan hasil yang lebih buruk bagi mereka, seperti yang diharapkan dari artefak kompresi tambahan.
Volker Siegel
10

Ada beberapa alat baris perintah OCR yang populer yang dapat Anda gunakan (Saya tidak yakin apakah mereka memiliki GUI):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Juga tersedia untuk: Tesseract .NET , Tesseract iOS

    Mesin OCR yang dikembangkan di HP Labs antara 1985 dan 1995 ... dan sekarang di Google. Tesseract mungkin adalah mesin OCR open source paling akurat yang tersedia.

    Pemakaian:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Pengenalan karakter sumber terbuka. Ini mengkonversi gambar teks yang dipindai kembali ke file teks. GOCR dapat digunakan dengan ujung depan yang berbeda, yang membuatnya sangat mudah untuk port ke berbagai OS dan arsitektur. Itu dapat membuka berbagai format gambar, dan kualitasnya telah meningkat setiap hari.

  • OCRopus ™ ( FAQ ) (ditulis dengan Python, NumPy, dan SciPy)

    Sistem OCR berfokus pada penggunaan pembelajaran mesin skala besar untuk mengatasi masalah dalam analisis dokumen, menampilkan analisis tata letak pluggable, pengenalan karakter pluggable, pemodelan statistik bahasa alami, dan kemampuan multi-bahasa.

    Mesin OCRopus didasarkan pada dua proyek penelitian: pengenal tulisan tangan berkinerja tinggi yang dikembangkan pada pertengahan 90-an dan digunakan oleh biro Sensus AS, dan metode analisis tata letak kinerja tinggi yang baru.

    OCRopus adalah pengembangan yang disponsori oleh Google dan pada awalnya ditujukan untuk upaya konversi dokumen volume tinggi dan tinggi. Kami berharap bahwa itu juga akan menjadi sistem OCR yang sangat baik untuk banyak aplikasi lain.

  • Tessnet2 (Sumber terbuka, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract adalah mesin OCR open source C ++. Tessnet2 adalah .NET assembly yang memaparkan metode yang sangat sederhana untuk melakukan OCR. Tessnet2 berada di bawah lisensi Apache 2 (seperti tesseract), artinya Anda dapat menggunakannya seperti yang Anda inginkan, termasuk dalam produk komersial.

Beberapa lainnya: ABBYY CLI OCR untuk Linux , Asprise OCR

Untuk daftar yang lebih lengkap, periksa: Daftar perangkat lunak pengenalan karakter optik di Wikipedia

Lihat juga: wanghaisheng/awesome-ocr- Daftar sumber daya OCR yang menjanjikan di GitHub.

kenorb
sumber
9

linux-intelligent-ocr-solution

disclaimer - Saya terhubung erat dengan pengembangan solusi opensource ini

Lios dapat mengonversi cetak menjadi teks menggunakan pemindai atau kamera.

Itu juga dapat menghasilkan teks dari gambar yang dipindai dari sumber lain seperti Pdf, Gambar atau Folder yang berisi Gambar.

Program diberikan aksesibilitas total untuk tunanetra.

Karena saya terhubung erat - saya akan sangat menyukai umpan balik.

Nalin.x.Linux
sumber
Di mana dokumentasi tentang penggunaan? lios tidak seintuitif yang saya harapkan.
seorang coder
Proyek telah pindah ke sini .
Suzana
Apakah mungkin menjalankannya melalui baris perintah hanya dalam mode tanpa kepala di server?
Deadlock
8

Gscan2PDF

OCR pada halaman multi PDF atau dokumen yang dipindai

Ini mungkin cara termudah. Gscan2pdf adalah alat grafis yang memungkinkan Anda tidak hanya memindai file, tetapi juga mengimpor file dan melakukan OCR pada mereka. Instal gscan2pdf dari sini Instal gscan2pdf , dari Ubuntu Software Center atau jalankan perintah ini di terminal:

sudo apt-get install gscan2pdf
  • Jalankan gscan2pdf
  • Impor pdf (Ctrl + O)
  • Opsional: Alat> Bersihkan
  • Pilih Alat> Simpan OCR (Ctrl + S)

Gscan2PDF dapat menggunakan mesin OCR yang dapat disesuaikan, standarnya adalah tesseract-ocr

Anda mungkin mempertimbangkan untuk memilih bahasa yang sesuai. Dalam hal ini Anda perlu menginstal tesseract-ocr-LANGpaket, di mana LANGkode huruf ISO 639-2 tiga huruf. Saat ini Anda memiliki 108 bahasa pada 16,04 repo.

mxdsp
sumber
Saya tidak dapat melakukan apa pun dengan perangkat lunak ini. Tidak ada deteksi yang memadai sama sekali. Akan bagus untuk mendapatkan sampel uji tentang aplikasi sebelum rekomendasinya.
Léo Léopold Hertz 준영
gscan2pdf untuk 16,04 setidaknya tidak memiliki pintasan opsi Ctrl + i. Membuka file pdf dengan benar mengidentifikasi "halaman yang akan diekstrak", tetapi memilih "ok" tidak menghasilkan apa-apa.
user75505
3

Saya baru saja sukses (di bawah 16,04) dengan pdfocr.rb . Ini terdaftar di wiki Ubuntu

Berikut ini adalah ppa tetapi repositori untuk 16.04 tidak diperbarui. Skrip ruby ​​di atas dari github meskipun masih berfungsi dengan 16.04.

Anda dapat mengunduhnya dari Github. Anda perlu menginstal paket-paket berikut:

ruby tesseract-ocr pdftk exactimage

kemudian membuat pdfocr.rb dieksekusi dan dijalankan:

./pdfocf.rb -i source.pdf -o output.pdf

Secara opsional, Anda dapat menggunakan -l LANGparameter. Dalam hal ini Anda harus menginstal tesseract-ocr-LANGpaket, di mana LANGkode huruf ISO 639-2 tiga huruf. Saat ini Anda memiliki 108 bahasa pada 16,04 repo.

pengguna75505
sumber
3

Cara terbaik dan termudah di luar sana adalah menggunakannya pypdfocrtidak mengubah pdf. pypdfocr adalah tautan modul python di sini.

pypdfocr your_document.pdf

Pada akhirnya Anda akan memiliki your_document_ocr.pdfcara lain yang Anda inginkan dengan teks yang dapat dicari. Aplikasi tidak mengubah kualitas gambar. Menambah ukuran file sedikit dengan menambahkan teks overlay.

Saya pikir perintahnya cukup mudah sehingga tidak memerlukan GUI. Mungkin menginstal pypdfocr sedikit lebih verbose:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Pembaruan 3 November 2018:

pypdfocrtidak lagi didukung sejak 2016 dan saya melihat beberapa masalah karena tidak dibimbing. ocrmypdf( modul melakukan pekerjaan similiar dan dapat digunakan seperti ini:

ocrmypdf in.pdf out.pdf

Untuk memasang:

pip install ocrmypdf

atau

apt install ocrmypdf
Eduard Florinescu
sumber
Ini adalah alat yang sangat menarik, meskipun saya pikir OP menginginkan alat GUI untuk menghasilkan file teks, bukan sandwich PDF. Akan lebih baik jika Anda bisa memasukkan situs web proyek.
Andrea Lazzarotto
@AndreaLazzarotto Ya saya melihat tetapi karena perintahnya sesederhana itu saya kira banyak orang dapat menggunakan terminal untuk itu. jadi saya berpikir untuk memasukkan solusinya di sini
Eduard Florinescu
1
Secara kebetulan, baru-baru ini saya menemukan "ocrmypdf". Apakah Anda memeriksanya? Itu sangat bagus. :)
Andrea Lazzarotto
@AndreaLazzarotto sepertinya alternatif yang baik Anda mungkin ingin mengirim jawaban;) Saya akan mencobanya untuk melihat cara kerjanya :)
Eduard Florinescu
@AndreaLazzarotto Sepertinya tidak mudah untuk menginstal ocrmypdf di ubuntu 16.04 github.com/jbarlow83/OCRmyPDF/issues/118
Eduard Florinescu
3

Hanya karena ini bekerja dengan sangat baik dan tentunya harus ada dalam daftar:


Contoh gimageReader dari tangkapan layar:

masukkan deskripsi gambar di sini

Itu ada di dalam repo (dijawab pada 18.10, tetapi sudah menggunakannya sejak lama)

Yakub Vlijm
sumber
Ketika saya pertama kali meluncurkan gimageReader, itu memberi saya pesan "Tidak ada bahasa" untuk tesseract. Jawaban " Bagaimana cara saya menginstal paket bahasa baru untuk tesseract " gagal mendaftar engsebagai pilihan ... tapi saya berhasil! :) Berjalan sudo apt install tesseract-ocr-engdi terminal melakukan trik. Akan lebih baik jika ini didokumentasikan dalam file bantuan gimageReader atau "README" di github ... atau di suatu tempat. Seperti di sini, mungkin.
Dɑvïd
1

gscan2pdf mencakup 3 mesin ocr yang berbeda. Anda dapat memindai langsung ke program atau mengimpor pdf Anda ke dalam program. Saya menemukan mesin Tesseract bekerja sangat baik, dan sangat mudah digunakan

Vince West
sumber