Sumber terbuka lebih disukai, tetapi tidak perlu.
Saya memiliki Adobe Acrobat 8, dan sangat menyukai fitur OCR yang pada dasarnya dapat menempatkan lapisan teks OCR yang tidak terlihat di atas dokumen yang dipindai. Jadi apa yang Anda lihat di layar adalah dokumen yang dipindai asli, tetapi hasilnya dapat dicari.
Apa yang saya cari adalah cara untuk mengotomatisasi proses ini. Saat ini saya punya beberapa skrip yang kami gunakan untuk memproses dan mengarsipkan file yang dipindai, dan saya sedang mencari sesuatu yang bisa saya pasang langsung ke proses batch ini untuk melakukan OCR dengan cara yang mirip dengan apa yang dapat saya lakukan dengan Acrobat.
Semua saran, terima kasih!
pdf
document-management
ocr
Boden
sumber
sumber
Jawaban:
Saya sudah menerapkan ini dalam proyek pengarsipan dokumen perusahaan. File yang dipindai adalah file tif (satu halaman). Kemudian menggunakan Cuneiform untuk membuat file hok dari tif tunggal. Kemudian menggunakan hocr2pdf untuk menampilkan file PDF. Jika banyak halaman pemindaian, saya menggunakan gs untuk menggabungkan PDF ke dalam dokumen PDF tunggal. Bekerja sangat baik, OCR cukup baik untuk kebutuhan kita dan dapat dicari di setiap penampil PDF.
sumber
Sudahkah Anda melihat WatchOCR? Anda dapat mengunduhnya dari http://www.watchocr.com Server OCR gratis dan open source yang mengubah gambar hanya pdf menjadi teks yang dapat dicari pdf dari folder yang diawasi atau berbagi jaringan.
sumber
Saya suka suara jawaban xeon , meskipun OCRopus terdengar sangat menyenangkan.
sumber