pertama, minta maaf jika ini telah ditanyakan sebelumnya - saya mencari sementara melalui posting yang ada, tetapi tidak dapat menemukan dukungan.
Saya tertarik pada solusi untuk Fedora untuk OCR pdf multi-halaman yang tidak dapat dicari dan untuk mengubah pdf ini menjadi file pdf baru yang berisi lapisan teks di atas gambar. Di Mac OSX atau Windows kita bisa menggunakan Adobe Acrobat, tetapi di Linux, khususnya di Fedora?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/ tampaknya menggambarkan solusi - tapi sayangnya saya sudah bingung ketika mengambil gambar yang tepat.
command-line
pdf
ocr
ingli
sumber
sumber
Jawaban:
Cara terbaik dan termudah di luar sana adalah menggunakannya
pypdfocr
tidak mengubah pdf. pypdfocr adalah tautan modul python di sini.Pada akhirnya Anda akan memiliki
your_document_ocr.pdf
cara lain yang Anda inginkan dengan teks yang dapat dicari. Aplikasi tidak mengubah kualitas gambar. Menambah ukuran file sedikit dengan menambahkan teks overlay.Saya pikir perintahnya cukup mudah sehingga tidak memerlukan GUI. Mungkin menginstal pypdfocr sedikit lebih verbose:
Pembaruan 3 November 2018:
pypdfocr
tidak lagi didukung sejak 2016 dan saya melihat beberapa masalah karena tidak dibimbing.ocrmypdf
( modul ) melakukan pekerjaan similiar dan dapat digunakan seperti ini:Untuk memasang:
atau
sumber
Setelah mengetahui bahwa tesseract sekarang juga dapat menghasilkan pdf yang dapat dicari, saya menemukan sandwich skrip: http://www.tobias-elze.de/pdfsandwich/
setelah menginstal dependensi (ini mungkin bukan daftar lengkap)
Saya mengikuti panduan skrip untuk mengkompilasi dari sumber
dan ini sekarang memungkinkan saya untuk lari
menghasilkan pdf dicari.
sumber
Alat yang mudah tersedia di Ubuntu adalah 'ocrfeeder' yang memungkinkan pembuatan PDF dengan teks OCR yang di-overlay pada dokumen asli. Itu menggunakan Tesseract plus mesin OCR lainnya (tidak yakin yang mana) dan menyediakan untuk rotasi gambar / 'unpaper', dll, juga.
sumber
Saya punya masalah yang sama jadi saya menulis ini selama akhir pekan. Cobalah; ini bekerja dengan baik! Ini adalah pembungkus sederhana
tesseract
. Ini digunakanpdftoppm
untuk mengkonversi PDF menjadi banyak file TIFF, kemudian digunakantesseract
untuk melakukan OCR (Optical Character Recognition) pada mereka dan menghasilkan PDF yang dapat dicari sebagai output. Semua file sementara antara secara otomatis dihapus ketika skrip selesai.Kode sumber: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Petunjuk untuk menginstal & menggunakan
pdf2searchablepdf
:Diuji pada Ubuntu 18,04 pada 11 November 2019.
Memasang:
Menggunakan:
Anda sekarang akan memiliki pdf bernama mypdf_searchable.pdf , yang berisi teks yang bisa dicari!
Selesai Ia tidak memiliki dependensi python, karena saat ini ditulis seluruhnya dalam bash.
Referensi atau Sumber Terkait:
sumber