Ekstrak teks dari dokumen yang dipindai

10

Apakah ada cara untuk memilih teks dari dokumen yang dipindai? (output adalah jpg) Alat apa yang ditawarkan Ubuntu untuk melakukan tugas seperti itu? Apakah ada perpustakaan yang bisa saya gunakan alih-alih binari perangkat lunak pra-bangun untuk melakukan hal yang sama? Saya mencoba mengonversinya menjadi .pdf menggunakan Imagemagick dan kemudian mencoba memilih teks, yang jelas tidak berhasil.

Dananjaya
sumber

Jawaban:

9

Nama untuk jenis prosedur ini adalah OCR (Optical Character Recognition). Tautan itu juga menawarkan beberapa pilihan:

gocr - Baris perintah OCR
fuzzyocr - plugin spamassassin untuk memeriksa lampiran gambar
libhocr0 - Ibrani OCR
ocrad - program Pengenalan Karakter Optik
ocrfeeder - Analisis tata letak dokumen dan sistem pengenalan karakter optik
ocropus - analisis dokumen dan sistem OCR
tesseract-ocr
runcing - sistem OCR multi-bahasa 

Dan itu menunjukkan bahwa Tesseract ( tutorial yang sangat lama ) adalah pilihan yang lebih baik. Jadi cobalah.

Rinzwind
sumber
3

Beberapa waktu yang lalu mengevaluasi berbagai paket OCR di Ubuntu, menemukan bahwa Tesseract adalah yang paling buruk di antara mereka (tapi cukup buruk), dan menulis skrip pembungkus untuk OCRing (karena Tesseract menginginkan format input yang tidak jelas seperti TIFF). Ini milik saya ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Memproses ulang gambar dengan GIMP (mengkonversi ke B&W menggunakan alat Threshold) tampaknya sangat membantu.

Saya harap semuanya membaik sejak saat itu. Saya telah melihat nama OCR Feeder di posting blog baru-baru ini, saya akan mencobanya.

Marius Gedminas
sumber
2

Paket Tesseract-ocr adalah baris perintah. Jika Anda menginginkan program dengan GUI, saya menggunakan "gscan2pdf" dan Anda dapat menemukannya di Pusat Perangkat Lunak Ubuntu.

Dalam gscan2pdf yang perlu Anda lakukan adalah mengklik ikon pindai kecil di dekat bagian atas. Saya pikir itu memberi Anda dua atau tiga opsi, GOCR yang tidak terlalu baik, dan Tesseract yang bekerja dengan sangat baik. Pilih Tesseract dan dari titik ini Anda harus mengklik tab yang sesuai sehingga Anda dapat menemukan pengaturan resolusi. Taruhan terbaik Anda adalah 300 atau bahkan 600 dan Tesseract akan berhasil.

Dokumen yang dipindai, bengkok, atau tua dengan buruk tidak dikonversi dengan baik. Semoga berhasil!

PS .. Saya terus membaca bahwa Tesseract hanya dapat membaca gambar TIFF. Ini bukan masalahnya bagi saya. Saya juga bisa mengimpor JPG atau PNG.

PPS ... maaf untuk hasil edit! Anda dapat mencoba OCRFeeder di pusat perangkat lunak juga. Saya belum mencobanya.

I Heart Ubuntu
sumber
0

Saya memiliki Linux Mint 17.2 x32 Cinnamon. Mungkin langkah-langkah ini akan berhasil di Ubuntu 14,04 x32 juga.

  1. Instal Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Anda dapat menambahkan bahasa lain dengan menginstal paket tambahan. Tangkapan layar ini dari sinaptik: Paket bahasa Tesseract di Sinaptik

Menggunakan Tesseract

OPSI 1 - dengan membuka terminal commandline, kemudian pergi ke folder tempat Anda menyimpan file gambar (jpg, png) dan jalankan perintah:

a) untuk mengkonversi semua file gambar ke teks

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Untuk menggabungkan semua file teks menjadi satu, jalankan perintah cat *.txt >> all.txt

b) untuk mengonversi semua file gambar ke file hocr (buka dengan Firefox)

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

OPSI 2 - oleh GUI

a) Instal gImageReader, dan gunakan

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Aplikasi kedua adalah VietOCR. Versi aktual adalah 4.0, jadi unduh VietOCR-4.0.zip

Buka paket file dan buka VietOCR.jar oleh Java:

Buka VietOCR oleh Java Jika Anda tidak menginstal Java, maka Anda dapat menginstalnya dari repositori atau Anda dapat menginstal Oracle Java 8. Langkah-langkah untuk menginstal Oracle Java 8 di Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Saya merekomendasikan VietOCR, karena memungkinkan Anda untuk file pdf OCR, konversi massal juga merupakan pilihan.

anthony0013
sumber