Saya perlu memproses beberapa file PDF. Tugas terdiri dari menukar file gambar yang diberikan oleh yang lain. Masalah pertama saya adalah bagaimana cara mengganti gambar PDF dari baris perintah dalam proses batch. Selanjutnya saya akan mencoba untuk mengatasi masalah lain seperti bagaimana mengidentifikasi gambar mana yang perlu saya ganti (karena file PDF mungkin memiliki lebih dari satu gambar). Tapi pertama-tama saya ingin menyelesaikan masalah pertama: bagaimana cara mengganti gambar dalam PDF dengan yang lain.
Saya sudah membaca tentang poppler-utils dan pdftk tetapi sejauh yang saya tahu, tidak ada alat ini yang memungkinkan untuk mengganti gambar ke PDF.
command-line
pdf
images
Ivan
sumber
sumber
Jawaban:
OK ... Saya pikir
pdflatex
ada bagian yang hilang di sini.OP mengatakan dia telah melihat ke dalam
poppler-utils
danpdftk
. Biarkan saya menambahkannyapdfimages
. Ini, bersama denganpdflatex
adalah bagian dari solusi.Dalam kode contoh di atas,
pdfimages
lihat halaman 4 sampai 20target.pdf
dan ekstrak semua gambar ke file dengan nama yang dimulaiimageroot
.poppler-utils
menyediakanpdftotext
. Saya merekomendasikan-layout
opsi yang berfungsi dengan baik agar dokumen tetap dapat dibaca manusia.Keberatan OP terhadap
imagemagick
solusi yang ditawarkan oleh pidosaurus adalah bahwa suatu gambar tidak memiliki teks yang dapat diekstraksi. Dengan utilitas yang saya jelaskan, OP sekarang akan memiliki semua gambar serta semua teks yang diekstraksi, dan nomor halaman dan konten dipertahankan oleh-layout
opsi. OP dapat mengidentifikasi halaman teks yang benar dan membuangnya ke dalam.tex
file yang diakhiri dengan%includegraphics
arahan dan merujuk pada gambar pengganti dengan nama file. Anda kemudianpdflatex
ini dan berakhir dengan .pdf satu halaman baru untuk dimasukkan ke dalam sisa dokumen Andapdftk
. Jika Anda tahu di mana dalam teks halaman asli gambar itu berada, Anda bisa%includegraphics [h]
dan mendapatkan gambar itu di tempat yang tepat.sumber