OS saya adalah Ubuntu 12.04. Bagaimana saya bisa mengkonversi file pdf dari skala abu-abu ke hitam-putih? File pdf skala abu-abu berasal dari pemindaian dengan opsi skala abu-abu, dan pdf skala hitam-putih diperlukan oleh OCR.
Memperbarui:
Mengikuti jawaban Marco, pdf BW tidak bagus dan file aslinya ada di sini .
command-line
pdf
Tim
sumber
sumber
scantailor
scantailor
memiliki banyak fitur berguna lainnya dalam hal mempersiapkan pemindaian untuk OCR, dan itulah satu-satunya alasan mengapa saya menyarankannya (sebagai komentar, bukan jawaban)pdfimages
(poppler) untuk mengekstrak gambar yang dipindai dari wadah PDF-nya. Mungkin lebih efisien untuk menanganinya dengan ImageMagick.Jawaban:
1) Gunakan ghostscript untuk mengonversi PDF ke file PostScript monokrom menggunakan perangkat psmono :
2) Kemudian, ubah PostScript monokrom kembali ke PDF:
EDIT: The
psmono
perangkat menciptakan 1-bit setengah-nada gambar yang tampaknya bukan apa yang Anda inginkan. Saya tidak dapat menemukan cara untuk menentukan ambang menggunakan ghostscript, jadi saya menggunakan imagemagick.convert
internal menggunakan ghostscript untuk mengonversi PDF. Ini kemudian menerapkan pemfilteran ambang untuk menghasilkan gambar 1-bit dan menggunakan ghostscript lagi untuk membuat PDF. Karenaconvert
menggunakan resolusi 75DPI secara default, yang mungkin tidak cocok dengan resolusi Anda yang sebenarnya, Anda dapat memberikandensity
argumen. Dan bereksperimen denganthreshold
pengaturan. Nilai optimal sangat tergantung pada file input.sumber
Cara terbaik yang saya temukan di sana, tanpa kehilangan kualitas, menghilangkan bayangan, kebisingan, teks dari halaman berikutnya, berdarah, dll:
1) Pertama-tama, konversi pdf ke gambar individual
2) Kedua menghapus bayangan, noise, teks dari halaman berikutnya melalui (kredit ke blog ini )
ini dapat ditambahkan sebagai langkah tambahan atau sebagai ganti perintah di atas untuk hanya mendapatkan dua warna:
3) Ini untuk membuat file pdf dari setiap gambar jpg tanpa kehilangan resolusi atau kualitas:
4) Ini untuk menggabungkan halaman pdf menjadi satu:
5) Dan terakhir saya menambahkan layer teks OCR yang tidak mengubah kualitas pemindaian di pdf sehingga dapat dicari:
sumber
Saya juga memiliki beberapa pdf warna yang dipindai dan pdf abu-abu yang ingin saya konversi menjadi bw. Saya mencoba menggunakan
gs
dengan kode yang tercantum di sini , dan kualitas gambar bagus dengan teks pdf masih ada. Namun, kode gs itu hanya mengkonversi ke skala abu-abu (seperti yang ditanyakan dalam pertanyaan) dan masih memiliki ukuran file yang besar.convert
menghasilkan hasil yang sangat buruk bila digunakan secara langsung.Saya ingin pw bw dengan kualitas gambar yang baik dan ukuran file yang kecil. Solusi saya gunakan
gs
untuk mengekstrak file bmp skala abu-abu dari pdf,convert
untuk membatasi bmps menjadi bw dan menyimpannya sebagai file tiff, dan kemudian img2pdf untuk mengompres gambar tiff dan menggabungkan semuanya menjadi satu pdf.Saya mencoba langsung tiff dari pdf tapi kualitasnya tidak sama jadi saya menyimpan setiap halaman ke bmp. Untuk file pdf satu halaman,
convert
lakukan pekerjaan yang hebat dari bmp ke pdf. Contoh:Untuk beberapa halaman,
gs
dapat menggabungkan beberapa file pdf menjadi satu, tetapiimg2pdf
menghasilkan ukuran file yang lebih kecil daripada gs. File tiff harus dikompres sebagai input ke img2pdf. Ingatlah untuk banyak halaman, file bmp dan tiff menengah cenderung berukuran besar.pdftk
ataujoinpdf
akan lebih baik jika mereka dapat menggabungkan file pdf terkompresi dariconvert
.Saya membayangkan ada solusi yang lebih elegan. Namun, metode saya menghasilkan hasil dengan kualitas gambar yang sangat baik dan ukuran file yang jauh lebih kecil. Untuk mendapatkan kembali teks dalam bw pdf, jalankan OCR lagi.
Script shell saya menggunakan gs, convert, dan img2pdf. Ubah parameter (# halaman, pindai dpi, ambang batas%, dll) yang tercantum di awal sesuai kebutuhan, dan jalankan
chmod +x ./pdf2bw.sh
. Berikut ini skrip lengkap (pdf2bw.sh):sumber
Sebenarnya, jika itu berasal dari pemindaian, satu-satunya cara yang masuk akal adalah dengan menggunakan gambar pdf dan mengonversi gambar yang mendasarinya. Saya menggunakan skrip ini untuk mengubahnya:
sumber
Terima kasih kepada OccamsRazor untuk skripnya, yang berhasil mengubah PDF warna dan skala abu-abu menjadi versi monokrom yang ringkas dan terbaca. Ini benar-benar komentar di posting OccamsRazor, tapi saya tidak punya cukup poin untuk berkomentar.
Script akan gagal
img2pdf -o ./$output_pdf_name --dpi $dpi_res $input_files
karena--dpi
tidak lagi menjadi argumen yang diterima untuk img2pdf. Sebagai gantinya, ia mendapatkan resolusi dari file input, jadi Anda bisa membiarkannya saja.Ini versi naskah saya. Saya tidak ingin mengedit skrip untuk setiap file, jadi saya memasukkan jumlah halaman dan memasukkan nama file ketika saya menjalankannya. Saya memiliki nama keluaran set untuk dan set resolusi 200 dpi, yang bekerja untuk alur kerja saya, tetapi Anda mungkin ingin mengubahnya, atau mengubahnya menjadi dan dan melewati mereka di.
00input_name
$3
$4
Untuk menjalankan, gunakan , misalnya ,.
./pdf2bw.sh <number_of_pages> <input_name>
./pdf2bw.sh 55 input.pdf
sumber
"./$input_pdf_name"
dan bahkanseq 1 "$num_pages"
. Juga, Anda mungkin ingin mengubah`…`
ke$(…)
- lihat ini , ini , dan ini .