Saya punya dokumen PDF yang agak besar (~ 100MB) dengan banyak gambar di dalamnya (sebagai ilustrasi dan gambar latar belakang), dan saya ingin memiliki salinan pdf itu tanpa gambar, tetapi saya tidak tahu caranya lakukan itu.
Saya tidak berbicara tentang mengonversinya menjadi teks saja, saya ingin membiarkan paragraf / tabel / multi-kolom sebagaimana adanya.
Saya nyaman dengan baris perintah dan memiliki beberapa komputer dengan distribusi berbeda yang dapat saya gunakan.
command-line
pdf
Ornux
sumber
sumber
Jawaban:
Itu tidak ada di repositori tetapi Anda dapat menemukan unduhan ( pra-kompilasi atau sumber ) di situs web mereka .
Manual :
sumber
Rilis Ghostscript terbaru dapat melakukan ini juga. Cukup tambahkan parameter
-dFILTERIMAGE
ke perintah Anda.Bahkan ada dua parameter baru yang dapat ditambahkan untuk menghapus secara selektif jenis konten "vektor" dan "teks" :
-dFILTERIMAGE
: menghasilkan output di mana semua gambar raster dihapus.-dFILTERTEXT
: menghasilkan keluaran tempat semua elemen teks dihapus.-dFILTERVECTOR
: menghasilkan output di mana semua gambar vektor dihapus.Dua opsi ini dapat digabungkan. (Jika Anda menggabungkan ketiganya, Anda akan mendapatkan semua halaman menjadi kosong ...)
Contohnya
Berikut adalah tangkapan layar dari halaman contoh PDF yang berisi semua 3 jenis konten yang disebutkan di atas:
Cuplikan layar halaman PDF asli yang berisi elemen "gambar", "vektor" dan "teks".
Menjalankan 6 perintah berikut akan membuat semua 6 kemungkinan variasi konten yang tersisa:
Gambar berikut menggambarkan hasil:
Baris atas, dari kiri: semua "teks" dihapus; semua "gambar" dihapus; semua "vektor" dihapus. Baris bawah, dari kiri: hanya "teks" yang disimpan; hanya "gambar" yang disimpan; hanya "vektor" yang disimpan.
sumber
Sementara jawaban @Rinzwind adalah Hal yang Benar , saya hanya ingin berkomentar solusi "tengah". Anda biasanya dapat mengurangi sangat ukuran gambar menggunakan Ghostscript dengan
... terkadang sangat berguna untuk proofreading. Halaman manual untuk menulis PDF ada di sini .
sumber
/screen
akan (antara lain) mengatur resolusi gambar bitmap ke 72dpi. Jadi ya, jika Anda memiliki gambar pada DPI yang lebih kecil, itu dapat meningkatkan ukuran file. Inilah alasan mengapa saya menggunakan kata "normal" (dalam arti "tidak selalu, tetapi cukup sering"). Jangan ragu untuk melakukan downvote apa pun yang Anda inginkan.for s in screen default ; do gs -o /dev/null -sDEVICE=pdfwrite -dPDFSETTINGS=/${s} -c "currentpagedevice {exch ==only ( ) print === } forall" | sort | tee ghostscript---pdfwrite-PDFSETTINGS-${s}--pagedevice-settings.txt; done
. Ini akan menghasilkan dua file teks yang dapat Anda bandingkan menggunakansdiff -sbB $[file1}.txt ${file2}.txt
. Sekarang Anda tahu persis dan sepenuhnya semua pengaturan berbeda yang diperkenalkan oleh-dPDFSETTINGS=/screen
!/screen
daripada di/default
--- 72dpi versus 150dpi, dioptimalkan, buang pratinjau EPS ... tapi hei, bukan masalah besar. Orang akan menguji dan memilih solusi yang lebih baik./screen
memberikan hasil yang benar-benar buruk. Mungkin ingatan saya gagal, atau saya campur dengan/epub
. Perintah yang kuberikan padamu berasal dari ingatan karena aku cukup yakin itu akan menunjukkan apa yang kumaksud. Sekarang saya menjalankannya lagi, saya tidak lagi melihat apa yang saya harapkan: lebih banyak tes yang saya lakukan beberapa tahun yang lalu. Kemudian banyak (CID? / CFF?) Font mendapat ukuran kembung rasterized dari PDF yang dihasilkan. Saya harus mengunjungi kembali masalah ini, sekali lagi saya punya waktu ... :-)Anda dapat menggunakan master pdf editor, menghapus gambar-gambar itu dan menyimpannya sebagai file pdf baru. Anda dapat mengunduhnya dari pusat perangkat lunak Ubuntu.
sumber