PDF saya berisi 600 halaman dengan gambar teks. Ini memiliki 2 lapisan .
Lapisan 1: Gambar warna latar belakang
Layer 2: Gambar teks
Saya ingin menghapus semua lapisan gambar latar belakang dalam file PDF total seperti yang ditunjukkan pada gambar.
Bisakah Anda menyarankan saya perangkat lunak / alat?
Jawaban:
Gambaran
Apa yang Anda cari adalah alat-alat seperti Scan Tailor dan unpaper yang mampu Thresholding , Despeckling, dan Noise Removal . Kedua alat bekerja dengan gambar daripada file PDF tetapi Anda dapat dengan mudah mengkonversi antara berbagai format yang digunakan aplikasi ini dan PDF dengan menggunakan alat yang dijelaskan di akhir jawaban ini.
ScanTailor
Anda dapat menemukan tutorial video di sini . Dokumentasi yang lebih luas tersedia di wiki resmi . Anda mungkin akan paling tertarik pada halaman tentang mode keluaran hitam dan putih dan pengaturan filter .
Unpaper
Saya belum bekerja dengan
unpaper
diri saya sendiri. Dari apa yang saya pahami, ia memiliki jauh lebih banyak fitur daripada ScanTailor tetapi juga lebih sulit dikuasai.Tidak ada antarmuka GUI dan Anda harus mengandalkan sakelar baris perintah untuk menyelesaikan pekerjaan Anda. Di sisi lain ini berarti konversi dengan
unpaper
mudah dapat diotomatisasi menggunakan skrip.Anda dapat menemukan beberapa contoh skrip tentang mengonversi pemindaian menjadi hitam dan putih dan menghapus latar belakang di sini .
Beberapa alat bermanfaat saat bekerja dengan unpaper dan ScanTailer
Saya tidak punya cukup waktu untuk menulis tutorial lengkap tentang ScanTailor dan unpaper¹ tetapi di sini ada beberapa petunjuk tentang konversi antara
.pdf
dan format gambar yang didukung oleh alat-alat ini:Anda dapat menggunakan
pdfimages
untuk mengonversi dokumen PDF ke.ppm
file halaman tunggal , yang dapat dibaca olehunpaper
.Contoh penggunaan:
ScanTailor tidak mengambil
.ppm
file sebagai input. Anda harus mengonversikannya ke format lain seperti loss-less.png
terlebih dahulu.mogrify
keluar dariimagemagick
tool suite dapat melakukan ini untuk Anda.Contoh penggunaan:
Format keluaran ScanTailor dan unpaper adalah
.tiff
file halaman tunggal . Untuk mengkonversikannya kembali ke.pdf
saya sarankan menggunakantiffcp
dantiff2pdf
.Contoh penggunaan:
Instalasi
Perintah ini akan menginstal semua alat yang disebutkan di atas:
¹: Bagi siapa pun yang membaca ini, silakan mengkompilasi jawaban yang lebih luas berdasarkan ScanTailor dan / atau unpaper.
sumber
Saya baru saja menemukan solusi yang sangat sederhana:
instal
gscan2pdf
.Buka
gscan2pdf
, dan impor PDF.alat-> ambang batas. Default 80% bekerja dengan baik untuk saya.
simpan PDF di lokasi lain.
sumber
mungkin Master PDF editor dapat membantu Anda, meskipun saya belum menemukan cara untuk melakukan ini secara otomatis lebih dari 600 halaman.
sumber