Adakah alat untuk mengotomatisasi OCR dari file PDF yang dipindai dengan cara yang mirip dengan fitur OCR Acrobat? [Tutup]

10

Sumber terbuka lebih disukai, tetapi tidak perlu.

Saya memiliki Adobe Acrobat 8, dan sangat menyukai fitur OCR yang pada dasarnya dapat menempatkan lapisan teks OCR yang tidak terlihat di atas dokumen yang dipindai. Jadi apa yang Anda lihat di layar adalah dokumen yang dipindai asli, tetapi hasilnya dapat dicari.

Apa yang saya cari adalah cara untuk mengotomatisasi proses ini. Saat ini saya punya beberapa skrip yang kami gunakan untuk memproses dan mengarsipkan file yang dipindai, dan saya sedang mencari sesuatu yang bisa saya pasang langsung ke proses batch ini untuk melakukan OCR dengan cara yang mirip dengan apa yang dapat saya lakukan dengan Acrobat.

Semua saran, terima kasih!

Boden
sumber
1
PS - Saya mencoba menyimpan pertanyaan pengguna di superuser. Namun, implementasi yang dihasilkan dari pertanyaan ini pasti akan hidup di server yang saya punya pemrosesan dokumentasi yang dipindai ... jadi itu adalah undian.
Boden

Jawaban:

8

Saya sudah menerapkan ini dalam proyek pengarsipan dokumen perusahaan. File yang dipindai adalah file tif (satu halaman). Kemudian menggunakan Cuneiform untuk membuat file hok dari tif tunggal. Kemudian menggunakan hocr2pdf untuk menampilkan file PDF. Jika banyak halaman pemindaian, saya menggunakan gs untuk menggabungkan PDF ke dalam dokumen PDF tunggal. Bekerja sangat baik, OCR cukup baik untuk kebutuhan kita dan dapat dicari di setiap penampil PDF.

xeon
sumber
Menarik. Sebelum saya menghabiskan terlalu banyak waktu melihatnya, apakah PDF yang dihasilkan adalah gambar dari pemindaian asli dengan lapisan teks tertanam, atau hanya teks?
Boden
Ini gambar pemindaian asli dengan lapisan teks tertanam. File hocr adalah output teks dengan markup html.
xeon
Luar biasa. Aku akan mencobanya. Jika sepertinya itu akan berhasil, saya akan menandai jawaban Anda diterima. Terima kasih!
Boden
1
Terima kasih lagi. Agak merepotkan menginstal kedua orang ini, tetapi berhasil. Saya menulis skrip sederhana untuk memeriksa folder FTP untuk file .tif baru di mana ia menjalankan tulisan paku dan hocr2pdf, kemudian mengunggah hasilnya ke pustaka dokumen sharpoint menggunakan curl. Dengan demikian orang dapat mengarsipkan dokumen langsung dari mesin fotokopi, dan arsip sepenuhnya dapat dicari dengan teks. Pertanyaan: apakah Anda tahu apa yang dilakukan opsi "resolusi menimpa" di hocr2pdf?
Boden
Saya senang ini berhasil untuk Anda. Saya tidak tahu bahwa argumen -r tidak.
xeon
1

Sudahkah Anda melihat WatchOCR? Anda dapat mengunduhnya dari http://www.watchocr.com Server OCR gratis dan open source yang mengubah gambar hanya pdf menjadi teks yang dapat dicari pdf dari folder yang diawasi atau berbagi jaringan.

langner
sumber
0

Saya suka suara jawaban xeon , meskipun OCRopus terdengar sangat menyenangkan.

Kara Marfia
sumber
Ketika saya meneliti dan menguji berbagai solusi. Saya mencoba itu dan tesseract-ocr dan mereka tidak memiliki cara keluaran yang baik untuk PDF pada saat itu. Saya belum melihat ke jika mereka memiliki fitur tersebut ... saya tahu Tesseract-ocr memiliki dalam waktu mereka ...
xeon