Saya memiliki sejumlah dokumen yang dipindai dalam pdf dan saya ingin dapat mencarinya. Bagaimana saya bisa melakukan itu?
Pada dasarnya saya harus OCR pdf dan kemudian mencampur teks yang diekstraksi kembali ke pdf baru. Saya gagal mencoba sejumlah solusi yang berbeda (termasuk yang ditemukan di Menambahkan info OCR ke PDF ).
- pdfocr (yang memberi saya masalah ini: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (di mana pusat perangkat lunak mengatakan itu adalah paket yang buruk dan saya tidak boleh menginstalnya)
- OCRfeeder (di pusat perangkat lunak) mengekspor ke odt dengan baik, tetapi tidak bereaksi ketika mengekspor ke pdf.
- Gscan2pdf mengekspor gambar semua hitam (tetapi dapat dicari) seperti yang dilaporkan dalam diskusi ini .
- Saya tidak berpikir penampil Pdfxchange dapat menangani melakukan OCR dengan cepat pada file lebih dari 500 halaman.
Apakah ada paket perangkat lunak yang tidak saya sadari? Atau skrip yang melakukan ini?
software-recommendation
pdf
ocr
jangan
sumber
sumber
pdf2searchablepdf
. Itu bergantungtesseract
. Itu bekerja dengan baik. Sangat mudah digunakan. Lihat disini. askubuntu.com/a/1187881/327339Jawaban:
Ubuntu <16,04
Mengikuti komentar Glutanimate saya telah menemukan solusi yang berfungsi. Ini adalah skrip OCRmyPDF .
Jika Anda menerima pesan yang mengatakan Anda harus menginstal GNU parallel. Itu dapat dilakukan (mengikuti /ubuntu//a/298598/115155 ) dengan (baris kedua adalah opsional dan tergantung pada rasa dan versi Anda):
Akhirnya Anda dapat OCR pdf Anda dengan perintah:
Jika tampaknya perintah tidak responsif, Anda dapat meningkatkan verbositas menggunakan
-v
flag (yang dapat digunakan secara bertahap sebagai-vv
atau-vvv
). Mungkin lebih baik untuk menguji hasilnya terlebih dahulu pada pdf yang lebih pendek. Anda dapat mempersingkat pdf sebagai berikut:Ubuntu> = 16,04
Pada Ubuntu 16.04 OCRmyPDF telah tersedia melalui apt. Lari saja
Akhirnya Anda dapat OCR pdf Anda dengan perintah:
Jika tampaknya perintah tidak responsif, Anda dapat meningkatkan verbositas menggunakan
-v
flag (yang dapat digunakan secara bertahap sebagai-vv
atau-vvv
). Mungkin lebih baik untuk menguji hasilnya terlebih dahulu pada pdf yang lebih pendek. Anda dapat mempersingkat pdf sebagai berikut:Jika Anda memiliki pertanyaan, lihat di Repo Github yang baru .
sumber
sudo -H pip install git+https://github.com/jbarlow83/OCRmyPDF
untuk Ubuntu 16,04sudo apt install ocrmypdf
.@ don.joey menjawab dengan skrip ocrmypdf . Namun, itu dapat diinstal langsung sekarang (mulai 16.10 dan seterusnya).
Maka Anda harus menginstal bahasa tesseract yang Anda butuhkan.
Untuk daftar bahasa mana yang sudah ada di sistem Anda, ketik:
Jika Anda melewatkannya, pasanglah. Contohnya,
Sekarang Anda dapat menghasilkan PDF yang dapat dicari (kualitasnya akan bervariasi, tergantung pada dokumen yang dipindai) dengan perintah berikut
Anda tentu saja dapat memeriksa halaman manualnya untuk beberapa opsi tambahan.
sumber
pdfsandwich
melakukan pekerjaan ini dengan tepat. Saya tidak menyadari bahwa ada paket yang disediakan di pusat perangkat lunak, tetapi saya menyediakan paket deb Ubuntu untuk itu di situs web proyek (lihat http://www.tobias-elze.de/pdfsandwich/ untuk detailnya), termasuk versi terbaru (0.1.2), yang kemungkinan belum ada di pusat perangkat lunak apa pun.Jika Anda memiliki file yang dipindai
scanned_file.pdf
, cukup panggilyang menghasilkan file
scanned_file_ocr.pdf
dengan teks yang dikenali ditambahkan ke halaman yang dipindai.Dibandingkan dengan sebagian besar solusi yang ada, ini mendeteksi secara otomatis versi tesseract yang diinstal dan menyesuaikan perilakunya. Selain itu, ia melakukan preprocessing dari gambar yang dipindai sebelum proses OCR, seperti de-skewing atau penghapusan tepi gelap dll, yang sangat dapat meningkatkan pengenalan karakter optik.
PENOLAKAN: Saya adalah pengembang
pdfsandwich
dan karena itu sangat bias.sumber
OCRfeeder memiliki bug di
baris 436 harus membaca:
mengubah ini dan itu berhasil untuk saya
sumber
OS: Ubuntu 18.04
Pertama, instal
tesseract-ocr
dengan:Jika Anda akan menggunakan bahasa selain bahasa Inggris dengan tesseract, maka Anda harus menginstal paket laguage yang sesuai. Misalnya untuk bahasa Portugis, Anda harus melakukan:
Kalau tidak, Anda akan mendapatkan kesalahan:
Jika Anda Google "tesseract PDF" Anda mungkin akan menemukan posting yang agak ketinggalan zaman ini . Namun, itu memberi Anda beberapa petunjuk yang bermanfaat. Pertama-tama Anda harus mengonversi
.pdf
file Anda menjadi.tiff
satu. Lari:Jika, seperti pada posting yang sudah usang, Anda lupa menambahkan
alpha -Off
, Anda akan mendapatkan kesalahan berikut:Sekarang Anda dapat menjalankan perintah terakhir. Dalam kasus tertentu bahwa PDF asli Anda dalam bahasa Portugis, Anda akan memerlukan perintah ini:
File yang dihasilkan akan diberi nama
output.pdf
. Jika, misalnya, PDF Anda dalam bahasa Prancis, setelah Anda menginstal yang sesuaitesseract-ocr-fra
, Anda akan menjalankan:Dan file yang diinginkan adalah, lagi
output.pdf
,.sumber
Saya punya masalah yang sama jadi saya menulis ini selama akhir pekan. Cobalah; ini bekerja dengan baik! Ini adalah pembungkus sederhana
tesseract
. Ini digunakanpdftoppm
untuk mengkonversi PDF menjadi banyak file TIFF, kemudian digunakantesseract
untuk melakukan OCR (Optical Character Recognition) pada mereka dan menghasilkan PDF yang dapat dicari sebagai output. Semua file sementara antara secara otomatis dihapus ketika skrip selesai.Kode sumber: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Petunjuk untuk menginstal & menggunakan
pdf2searchablepdf
:Diuji pada Ubuntu 18,04 pada 11 November 2019.
Install:
Menggunakan:
Anda sekarang akan memiliki pdf bernama mypdf_searchable.pdf , yang berisi teks yang bisa dicari!
Selesai Wrapper tidak memiliki dependensi python, karena saat ini seluruhnya ditulis dalam bash.
Referensi atau Sumber Terkait:
pdftoppm
] Mengekstrak gambar yang disematkan dari PDFsumber