Bagaimana cara mengubah PDF yang dipindai menjadi PDF dengan teks

36

Saya telah memindai sekitar 80 halaman ke skala abu-abu pdf (format gambar). Ukuran akhir file adalah sekitar 70MB, yang sangat besar.

Sekarang saya sedang mencari metode untuk mengubah file PDF berbasis gambar skala abu-abu menjadi file PDF sederhana berbasis teks hitam / putih.

Saya telah melakukan banyak upaya dengan gstetapi tidak berhasil (hanya pemulihan beberapa persen). Jika ada pakar yang punya ide, beri tahu saya.

Laksamana
sumber
1
Anda memerlukan beberapa alat OCR. Lihatlah Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.
4
Jika Anda tertarik untuk menjaga gambar PDF apa adanya dan menambahkan teks ke dalamnya, lihat pertanyaan Menambahkan info OCR ke PDF .
colan
Jika Anda dapat memposting tautan ke (misalnya) contoh satu halaman, kami dapat menguji solusi ...
Rmano
Ini bukan solusi OCR tetapi askubuntu.com/a/3387/16395 banyak membantu (meskipun 72dpi sedikit di sisi yang rendah, saya memiliki hasil yang lebih baik dengan 120).
Rmano
Apakah YAGF berfungsi dengan benar dengan Ubuntu 16.04? Jika saya memuat gambar atau dokumen-pdf, program dibatalkan tanpa pesan kesalahan. Di bawah Ubuntu 14.04 saya tidak punya masalah. H.Roos
Hubert Roos

Jawaban:

25

gImageReader adalah front-end GTK + sederhana tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

maaf untuk teks bahasa jerman

AB
sumber
4
Anda juga harus menginstal bahasa dokumen untuk meningkatkan OCR, dengan sudo apt-get install tesseract-ocr-[lang], mengganti langdengan kode bahasa, seperti deuuntuk Deutsch, poruntuk Portugis, dll.
estibordo
1
Perangkat lunak ini jelek. Kegunaan di bawah nol. Meskipun mencoba melakukan pekerjaan itu, tetapi tidak dapat membaca tabel seperti spreadsheet biasa. Merindukan halaman yang memuatnya.
Max Yudin
9

Anda dapat mencoba pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Untuk menjalankan sintaks tersebut

 pdfocr -i input.pdf -o output.pdf

di mana input.pdfnama file input dan output.pdffile output.

Secara default menggunakan Tesseract. Untuk menginstalnya:

 sudo apt-get install tesseract-ocr

pdfocr membuat lapisan teks yang disematkan.

rafmunozf
sumber
Besar! Menariknya setelah melakukan langkah-langkah di atas file sekarang dapat dicari di Adobe Acrobat DC tetapi tidak dalam Preview.
lukeaus
2
Repositori ini tidak mendukung xenial
Max N
Anda dapat mencoba menginstal pdfocr versi lama, jika Anda menginstal versi cerdik di xenial berfungsi dengan baik. Untuk melakukannya tambahkan "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" dan "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" ke /etc/apt/sources.list lalu "sudo apt update" dan "sudo apt-get install pdfocr"
rafmunozf
2
pdfocr adalah skrip yang mengotomatiskan proses berikut: 1. Memisahkan file PDF ke dalam halaman terpisah menggunakan pdftk 2. Mengekstrak data gambar menggunakan pdfimages 3. Melakukan OCR (pengenalan karakter optik) menggunakan tulisan paku 4. Memasukkan teks yang terdeteksi kembali ke dalam File PDF menggunakan hocr2pdf 5. Menggabungkan file-file menggunakan pdftk. (mengutip dari ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell
3
pdfsandwich

Ini memuat tesseract dan lainnya saat diinstal. Ini solusi satu langkah yang mudah dan dapat dituliskan. Ini dapat digunakan hocr2pdfuntuk membuat pdf teks biasa, tetapi belum siap untuk prime time ... belum. Default menggunakan tesseract dan membuat "sandwich" pdf: gambar + teks di bawahnya.

Gambar yang disematkan dapat dihapus dengan perintah seperti:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

tetapi teksnya tersembunyi, jadi itu tampak seperti halaman kosong.

Memuat PDF ke dalam LibreOffice Drawmengekspos teks dan gambar dapat dihapus secara manual.

AtesComp
sumber
Apa yang kita lakukan tentang masalah keamanan imagemagick / ghostscript yang mengarah ke not authorizedkesalahan identify-im6.q16seperti ini: imagemagick - convert: tidak diotorisasi aaaa@ error / constitute.c / ReadImage / 453 - Stack Overflow
nealmcb
1

Untuk antarmuka grafis yang disarankan oleh @AB di ubuntu 14.04 Anda harus mengikuti:

ocr tesseract di ubuntu 14.04

atau bagaimanapun, tambahkan ke daftar repositori:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

sebelum ini bekerja:

sudo apt-get install gimagereader
michel.iamit
sumber
1

Anda dapat mencoba shrinkpdf untuk mengurangi ukuran file dan kemudian ocr.sh untuk menambahkan layer teks.

mahasiswa
sumber
-1

Dalam file pdf Anda, klik kanan dan simpan setiap halaman sebagai gambar (atau temukan beberapa alat yang mengerjakan semua halaman secara otomatis)

Buka pusat perangkat lunak Ubuntu. Cari tesseract. Ini akan menemukan YAGF yang harus Anda instal. Di YAGF, klik File -> Open Image dan muat gambar Anda. Kemudian klik File -> Kenali.

Saya memiliki akurasi 100% dalam tes pertama saya.

atmelino
sumber