Saya memiliki alur kerja di mana saya memindai dokumen kertas ke dalam PDF yang dapat dicari menggunakan pemindai dokumen Fujitsu ScanSnap S500 . Saya bukan penggemar berat dari perangkat lunak yang dibundel, tetapi sangat mudah digunakan: letakkan setumpuk kertas di bagian atas, tekan tombol hijau dan PDF yang bisa dicari keluar.
Sekarang, saya ingin melakukan sesuatu yang serupa di Linux (Ubuntu 10.10). Pemindai didukung di luar kotak.
Saya telah melihat gscan2pdf
dan XSane
:
XSane
terlihat kuat, tetapi tidak benar-benar cocok sebagai solusi alur kerja;gscan2pdf
sedikit lebih dekat ke "push the button, get the PDF" ideal, tetapi masih belum 100% ada.
Perangkat lunak lain apa pun yang dapat Anda rekomendasikan (gratis atau tidak)?
gscan2pdf
saya memiliki artefak aneh dengan 'unpaper'ing, OCR sebagian besar tidak dapat digunakan (beberapa mesin lebih baik daripada yang lain) dan secara keseluruhan itu tidak cukup efisien sebagai solusi asli. Bagaimanapun, inti dari pertanyaan saya adalah untuk melihat apa lagi yang ada di luar sana sehingga saya dapat mencoba berbagai solusi dan melihat mana yang terbaik bagi saya.gscan2pdf
sebenarnya cukup dekat dengan apa yang saya cari, tetapi ada daerah yang sayangnya kurang dibandingkan dengan solusi asli.Jawaban:
Berikut adalah beberapa hal yang saya temukan ketika meneliti ini awal tahun ini. Maaf, saya tidak dapat memposting lebih dari satu hyperlink karena peringkat saya terbatas, jadi Anda harus ke Google untuk tautannya.
gscan2pdf
Sistem GUI yang sangat bagus yang dapat menggunakan berbagai mesin OCR untuk backend. Ini mungkin akan memenuhi solusi satu sentuhan Anda (dan digitxp sudah menyebutkannya).
Mesin OCR Tesseract
Dapat digunakan dengan gscan2pdf.
Ocropus
Saya tidak terlalu jauh dengan ocropus karena tidak mengenali teks tanpa pelatihan yang ekstensif. Mungkin akan sangat bagus untuk buku, tetapi tidak berfungsi dengan baik untuk saya dengan tagihan dan semacamnya. YMMV.
Runcing
Saya mendapatkan kesuksesan terbaik dengan Cuneiform dan mampu membuat PDF yang dapat dicari dengan perintah scripting yang mirip dengan alur kerja berikut:
Anda juga perlu menginstal paket penaksiran.
Berbagai proyek open-source untuk OCR'ing PDF menggunakan Cuniform dan hocr2pdf juga:
Beri tahu saya apa yang Anda ketahui!
sumber