Bagaimana saya bisa menghapus latar belakang halaman skala abu-abu dari pemindaian dokumen PDF sambil mempertahankan teks? (Binarisasi)

9

PDF saya berisi 600 halaman dengan gambar teks. Ini memiliki 2 lapisan .

  • Lapisan 1: Gambar warna latar belakang

  • Layer 2: Gambar teks

Saya ingin menghapus semua lapisan gambar latar belakang dalam file PDF total seperti yang ditunjukkan pada gambar.

masukkan deskripsi gambar di sini

Bisakah Anda menyarankan saya perangkat lunak / alat?

masukkan deskripsi gambar di sini

Raghu G
sumber
Apa rilis Ubuntu yang Anda gunakan?
Mitch
Ubuntu 13.10, 64-bit.
Raghu G
Deskripsi pertanyaan diperbarui.
Raghu G

Jawaban:

9

Gambaran

Apa yang Anda cari adalah alat-alat seperti Scan Tailor dan unpaper yang mampu Thresholding , Despeckling, dan Noise Removal . Kedua alat bekerja dengan gambar daripada file PDF tetapi Anda dapat dengan mudah mengkonversi antara berbagai format yang digunakan aplikasi ini dan PDF dengan menggunakan alat yang dijelaskan di akhir jawaban ini.

ScanTailor

Anda dapat menemukan tutorial video di sini . Dokumentasi yang lebih luas tersedia di wiki resmi . Anda mungkin akan paling tertarik pada halaman tentang mode keluaran hitam dan putih dan pengaturan filter .

Unpaper

Saya belum bekerja dengan unpaperdiri saya sendiri. Dari apa yang saya pahami, ia memiliki jauh lebih banyak fitur daripada ScanTailor tetapi juga lebih sulit dikuasai.

Tidak ada antarmuka GUI dan Anda harus mengandalkan sakelar baris perintah untuk menyelesaikan pekerjaan Anda. Di sisi lain ini berarti konversi dengan unpapermudah dapat diotomatisasi menggunakan skrip.

Anda dapat menemukan beberapa contoh skrip tentang mengonversi pemindaian menjadi hitam dan putih dan menghapus latar belakang di sini .


Beberapa alat bermanfaat saat bekerja dengan unpaper dan ScanTailer

Saya tidak punya cukup waktu untuk menulis tutorial lengkap tentang ScanTailor dan unpaper¹ tetapi di sini ada beberapa petunjuk tentang konversi antara .pdfdan format gambar yang didukung oleh alat-alat ini:

  • Anda dapat menggunakan pdfimagesuntuk mengonversi dokumen PDF ke .ppmfile halaman tunggal , yang dapat dibaca oleh unpaper.

    Contoh penggunaan:

    pdfimages *.pdf ./extracted-images
  • ScanTailor tidak mengambil .ppmfile sebagai input. Anda harus mengonversikannya ke format lain seperti loss-less .pngterlebih dahulu. mogrifykeluar dari imagemagicktool suite dapat melakukan ini untuk Anda.

    Contoh penggunaan:

    mogrify -format png *.ppm
  • Format keluaran ScanTailor dan unpaper adalah .tifffile halaman tunggal . Untuk mengkonversikannya kembali ke .pdfsaya sarankan menggunakan tiffcpdan tiff2pdf.

    Contoh penggunaan:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

Instalasi

Perintah ini akan menginstal semua alat yang disebutkan di atas:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Bagi siapa pun yang membaca ini, silakan mengkompilasi jawaban yang lebih luas berdasarkan ScanTailor dan / atau unpaper.

Glutanimate
sumber
Scantailer berfungsi tetapi pada file pdf. Anda harus mengubahnya menjadi beberapa format gambar terlebih dahulu.
To Do
@ToDo Ya, seperti yang ditunjukkan dalam jawaban :).
Glutanimate
Saya sadar sekarang. Lebih baik mengatur jawabannya sehingga semua informasi pada setiap program berada dalam satu blok.
To Do
@ToDo Alasan awal mengapa saya meletakkan alat di bagian tombak adalah karena mereka relevan dengan unpaper dan Scantailor. Anda benar, meskipun, itu agak tidak terorganisir. Saya pikir itu seharusnya lebih baik sekarang
Glutanimate
3

Saya baru saja menemukan solusi yang sangat sederhana:

  • instal gscan2pdf.

  • Buka gscan2pdf, dan impor PDF.

  • alat-> ambang batas. Default 80% bekerja dengan baik untuk saya.

  • simpan PDF di lokasi lain.

Noam
sumber
1

mungkin Master PDF editor dapat membantu Anda, meskipun saya belum menemukan cara untuk melakukan ini secara otomatis lebih dari 600 halaman.

Presbitero
sumber