Perangkat lunak Scan-to-PDF untuk Linux?

18

Saya memiliki alur kerja di mana saya memindai dokumen kertas ke dalam PDF yang dapat dicari menggunakan pemindai dokumen Fujitsu ScanSnap S500 . Saya bukan penggemar berat dari perangkat lunak yang dibundel, tetapi sangat mudah digunakan: letakkan setumpuk kertas di bagian atas, tekan tombol hijau dan PDF yang bisa dicari keluar.

Sekarang, saya ingin melakukan sesuatu yang serupa di Linux (Ubuntu 10.10). Pemindai didukung di luar kotak.

Saya telah melihat gscan2pdfdan XSane:

  • XSane terlihat kuat, tetapi tidak benar-benar cocok sebagai solusi alur kerja;
  • gscan2pdf sedikit lebih dekat ke "push the button, get the PDF" ideal, tetapi masih belum 100% ada.

Perangkat lunak lain apa pun yang dapat Anda rekomendasikan (gratis atau tidak)?

NPE
sumber
saya menggunakan pdf-cups, tetapi ini adalah gambar yang bukan teks yang dapat ditelusuri
RobotHumans
1
Apa yang 'tidak 100% ada' dengan gscan2pdf?
digitxp
@digitxp Saya tidak ingin mengacaukan pertanyaan dengan daftar masalah, suka dan tidak suka untuk produk apa pun. Namun, karena Anda bertanya, gscan2pdfsaya memiliki artefak aneh dengan 'unpaper'ing, OCR sebagian besar tidak dapat digunakan (beberapa mesin lebih baik daripada yang lain) dan secara keseluruhan itu tidak cukup efisien sebagai solusi asli. Bagaimanapun, inti dari pertanyaan saya adalah untuk melihat apa lagi yang ada di luar sana sehingga saya dapat mencoba berbagai solusi dan melihat mana yang terbaik bagi saya.
NPE
@digitxp Saya baru saja membaca kembali komentar saya sebelumnya dan kedengarannya sangat negatif. Bukan itu maksudnya. gscan2pdfsebenarnya cukup dekat dengan apa yang saya cari, tetapi ada daerah yang sayangnya kurang dibandingkan dengan solusi asli.
NPE

Jawaban:

18

Berikut adalah beberapa hal yang saya temukan ketika meneliti ini awal tahun ini. Maaf, saya tidak dapat memposting lebih dari satu hyperlink karena peringkat saya terbatas, jadi Anda harus ke Google untuk tautannya.

gscan2pdf

Sistem GUI yang sangat bagus yang dapat menggunakan berbagai mesin OCR untuk backend. Ini mungkin akan memenuhi solusi satu sentuhan Anda (dan digitxp sudah menyebutkannya).

Mesin OCR Tesseract

Dapat digunakan dengan gscan2pdf.

Ocropus

Saya tidak terlalu jauh dengan ocropus karena tidak mengenali teks tanpa pelatihan yang ekstensif. Mungkin akan sangat bagus untuk buku, tetapi tidak berfungsi dengan baik untuk saya dengan tagihan dan semacamnya. YMMV.

Runcing

Saya mendapatkan kesuksesan terbaik dengan Cuneiform dan mampu membuat PDF yang dapat dicari dengan perintah scripting yang mirip dengan alur kerja berikut:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Anda juga perlu menginstal paket penaksiran.

Berbagai proyek open-source untuk OCR'ing PDF menggunakan Cuniform dan hocr2pdf juga:

  • WatchOCR
  • Archivista

Beri tahu saya apa yang Anda ketahui!

Eric Holmberg
sumber