bagaimana cara OCR file pdf dan mendapatkan teks disimpan dalam pdf?

23

pertama, minta maaf jika ini telah ditanyakan sebelumnya - saya mencari sementara melalui posting yang ada, tetapi tidak dapat menemukan dukungan.

Saya tertarik pada solusi untuk Fedora untuk OCR pdf multi-halaman yang tidak dapat dicari dan untuk mengubah pdf ini menjadi file pdf baru yang berisi lapisan teks di atas gambar. Di Mac OSX atau Windows kita bisa menggunakan Adobe Acrobat, tetapi di Linux, khususnya di Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/ tampaknya menggambarkan solusi - tapi sayangnya saya sudah bingung ketika mengambil gambar yang tepat.

ingli
sumber
Ada masalah dengan skrip pdfocr yang bagus yang direkomendasikan oleh halaman yang Anda tautkan: skrip ini bergantung pada pdftk yang pada dasarnya sudah usang (karena dua alasan, ketergantungannya pada libgcj dan pada iText5 +). Jadi solusi yang berbeda tetap diperlukan ...
Maxim

Jawaban:

24

Cara terbaik dan termudah di luar sana adalah menggunakannya pypdfocrtidak mengubah pdf. pypdfocr adalah tautan modul python di sini.

pypdfocr your_document.pdf

Pada akhirnya Anda akan memiliki your_document_ocr.pdfcara lain yang Anda inginkan dengan teks yang dapat dicari. Aplikasi tidak mengubah kualitas gambar. Menambah ukuran file sedikit dengan menambahkan teks overlay.

Saya pikir perintahnya cukup mudah sehingga tidak memerlukan GUI. Mungkin menginstal pypdfocr sedikit lebih verbose:

sudo dnf -y install tesseract 
pip install pypdfocr 

Pembaruan 3 November 2018:

pypdfocrtidak lagi didukung sejak 2016 dan saya melihat beberapa masalah karena tidak dibimbing. ocrmypdf( modul ) melakukan pekerjaan similiar dan dapat digunakan seperti ini:

ocrmypdf in.pdf out.pdf

Untuk memasang:

pip install ocrmypdf

atau

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora
Eduard Florinescu
sumber
mengapa Anda menginstal (menggunakan apt) ocrmypdf di ubuntu, tetapi menginstal tessaract di fedora? Saya pikir Anda membuat kesalahan ketik
iuridiniz
@ iuridiniz memperbaikinya. Itu adalah kesalahan yang menyelinap masuk
Eduard Florinescu
8

Setelah mengetahui bahwa tesseract sekarang juga dapat menghasilkan pdf yang dapat dicari, saya menemukan sandwich skrip: http://www.tobias-elze.de/pdfsandwich/

setelah menginstal dependensi (ini mungkin bukan daftar lengkap)

sudo dnf install svn ocaml unpaper tesseract

Saya mengikuti panduan skrip untuk mengkompilasi dari sumber

Kompilasi dari sumber

pdfsandwich adalah perangkat lunak sumber terbuka (lisensi: GPL). Anda dapat mengunduh sumber baik sebagai paket .tar.bz2 dari area unduhan di situs web proyek atau memeriksanya dengan subversi:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

Jika OCaml diinstal pada sistem Anda, Anda dapat mengkompilasi dan menginstal sebagai berikut:

cd pdfsandwich
./configure
make
sudo make install

dan ini sekarang memungkinkan saya untuk lari

sandwich multipaged-non-searchable.pdf

menghasilkan pdf dicari.

ingli
sumber
untuk pertanyaan terkait, tetapi terpisah, membangun yang ini, lihat unix.stackexchange.com/questions/306051/…
ingli
1
FWIW: pdfsandwich juga tersedia di repositori paket apt Ubuntu. Distro lain mungkin memilikinya juga.
Laurence Gonsalves
Baru saja datang di fedoramagazine.org/4-cool-new-projects-try-copr-october-2018 menunjukkan paket COPR untuk fedora yang mengemas pdfsandwich
ingli
1

Saya punya masalah yang sama jadi saya menulis ini selama akhir pekan. Cobalah; ini bekerja dengan baik! Ini adalah pembungkus sederhana tesseract. Ini digunakan pdftoppmuntuk mengkonversi PDF menjadi banyak file TIFF, kemudian digunakan tesseractuntuk melakukan OCR (Optical Character Recognition) pada mereka dan menghasilkan PDF yang dapat dicari sebagai output. Semua file sementara antara secara otomatis dihapus ketika skrip selesai.

Kode sumber: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

Petunjuk untuk menginstal & menggunakan pdf2searchablepdf:

Diuji pada Ubuntu 18,04 pada 11 November 2019.

Memasang:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

Menggunakan:

pdf2searchablepdf mypdf.pdf

Anda sekarang akan memiliki pdf bernama mypdf_searchable.pdf , yang berisi teks yang bisa dicari!

Selesai Ia tidak memiliki dependensi python, karena saat ini ditulis seluruhnya dalam bash.

Referensi atau Sumber Terkait:

  1. PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. /ubuntu/16268/whats-the-best-simplest-ocr-sution
  4. /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich : Pembungkus perangkat lunak alternatif yang baru saja saya temukan, itu juga layak untuk dicoba! http://www.tobias-elze.de/pdfsandwich/
Gabriel Staples
sumber