Saya memiliki pemindaian dokumen yang berkualitas baik; pemindaian tersebut dalam format pdf.
Bagaimana saya bisa menambahkan informasi ocr ke pdf, sehingga menjadi dapat dicari? Maksud saya maksudnya adalah saat melihat pdf dengan evince, CTRL-F sebenarnya memungkinkan saya untuk mencari konten pdf.
Jawaban:
pdfsandwich
Lakukan apa yang Anda inginkan dan sediakan paket deb Ubuntu. Ini menggunakan tesseract sebagai mesin OCR. Panggilan berikut menambahkan lapisan teks ke PDF yang dipindai:
Mengikuti melakukan hal yang sama tetapi dengan bahasa lain (kode ISO 639-2,
tesseract-ocr-LANGCODE
paket unduh ) dan mengatur tata letak:Jika Anda mendapatkan kesalahan, unduh deb versi terakhir dari Sourceforge .
Penafian: Saya adalah pengembang pdfsandwich dan karenanya jelas-jelas bias.
sumber
pdfunite
.pdfsandwitch
? Saya melakukan ini dengan beberapa dokumen Swedia, dan berfungsi dengan baik, kecuali untuk beberapa kesalahan ejaan (mungkin karena font aslinya) yang akan mudah diperbaiki jika itu adalah file teks, tetapi bagaimana saya bisa melakukan ini dalam PDF yang dihasilkan ?Ada dua proyek yang melakukan trik: GScan2PDF dan OCRFeeder
sumber
Saya menemukan solusi yang tidak ideal, tetapi sangat efektif.
Saya menggunakan PDF X-Change Viewer melalui Wine. Ini memiliki fitur OCR yang menambahkan lapisan teks ke pdf berbasis gambar yang ada.
Dengan demikian Anda dapat mencari dan menyalin teks dari lapisan tak kasat mata ini.
sumber
Untuk solusi baris perintah, Anda dapat menggunakan pdfocr .
Secara singkat, instal perangkat lunak:
Kemudian jalankan pdfocr:
Itu berhasil bagi saya di Ubuntu 12,04 LTS.
sumber
pdfsandwich
, karena memodifikasi / memampatkan PDF yang berisi gambar highres, pada dasarnya menghancurkan beberapa informasi gambar asli.Solusi yang mudah diimplementasikan dan memberikan output pdf dengan kualitas yang sama dari file input plus ukuran yang masuk akal adalah OCRmyPDF:
https://github.com/jbarlow83/OCRmyPDF
sumber
Ini adalah solusi cepat dan kotor saya berdasarkan ImageMagick ini
convert
,tesseract
,parallel
danpdftk
(semua tersedia di distro berbasis debian). Ini sebagian besar didasarkan pada posting blog ini .sumber
Untuk seluruh direktori dengan file ppm Anda dapat menggunakan skrip ini ppm2ocrpdf.sh
sumber