Saya telah memindai sekitar 80 halaman ke skala abu-abu pdf (format gambar). Ukuran akhir file adalah sekitar 70MB, yang sangat besar.
Sekarang saya sedang mencari metode untuk mengubah file PDF berbasis gambar skala abu-abu menjadi file PDF sederhana berbasis teks hitam / putih.
Saya telah melakukan banyak upaya dengan gs
tetapi tidak berhasil (hanya pemulihan beberapa persen). Jika ada pakar yang punya ide, beri tahu saya.
Jawaban:
gImageReader adalah front-end GTK + sederhana
tesseract-ocr
.maaf untuk teks bahasa jerman
sumber
sudo apt-get install tesseract-ocr-[lang]
, menggantilang
dengan kode bahasa, sepertideu
untuk Deutsch,por
untuk Portugis, dll.Anda dapat mencoba pdfocr:
Untuk menjalankan sintaks tersebut
di mana
input.pdf
nama file input danoutput.pdf
file output.Secara default menggunakan Tesseract. Untuk menginstalnya:
pdfocr membuat lapisan teks yang disematkan.
sumber
Ini memuat tesseract dan lainnya saat diinstal. Ini solusi satu langkah yang mudah dan dapat dituliskan. Ini dapat digunakan
hocr2pdf
untuk membuat pdf teks biasa, tetapi belum siap untuk prime time ... belum. Default menggunakan tesseract dan membuat "sandwich" pdf: gambar + teks di bawahnya.Gambar yang disematkan dapat dihapus dengan perintah seperti:
tetapi teksnya tersembunyi, jadi itu tampak seperti halaman kosong.
Memuat PDF ke dalam
LibreOffice Draw
mengekspos teks dan gambar dapat dihapus secara manual.sumber
not authorized
kesalahanidentify-im6.q16
seperti ini: imagemagick - convert: tidak diotorisasiaaaa
@ error / constitute.c / ReadImage / 453 - Stack OverflowUntuk antarmuka grafis yang disarankan oleh @AB di ubuntu 14.04 Anda harus mengikuti:
ocr tesseract di ubuntu 14.04
atau bagaimanapun, tambahkan ke daftar repositori:
sebelum ini bekerja:
sumber
Anda dapat mencoba shrinkpdf untuk mengurangi ukuran file dan kemudian ocr.sh untuk menambahkan layer teks.
sumber
Dalam file pdf Anda, klik kanan dan simpan setiap halaman sebagai gambar (atau temukan beberapa alat yang mengerjakan semua halaman secara otomatis)
Buka pusat perangkat lunak Ubuntu. Cari tesseract. Ini akan menemukan YAGF yang harus Anda instal. Di YAGF, klik File -> Open Image dan muat gambar Anda. Kemudian klik File -> Kenali.
Saya memiliki akurasi 100% dalam tes pertama saya.
sumber