Saya sedang mencari program yang bagus untuk menunjukkan kepada saya perbedaan antara dua file pdf yang serupa. Secara khusus, saya mencari sesuatu yang tidak hanya menjalankan diff pada versi ascii (dengan "pdftotext") dari file. Inilah yang dilakukan pdfdiff.py .
39
Jawaban:
Anda dapat menggunakan DiffPDF untuk ini. Dari uraian:
sumber
sudo apt-get install diffpdf
.Saya baru saja menemukan hack untuk membuat DiffPDF (program yang disarankan oleh @qbi) dapat digunakan untuk lebih dari perubahan kecil. Apa yang saya lakukan adalah menggabungkan semua halaman pdf menjadi gulungan panjang menggunakan pdfjam dan kemudian membandingkan gulungan. Ini bekerja bahkan ketika bagian besar dihapus atau dimasukkan!
Berikut ini skrip bash yang berfungsi:
sumber
Meskipun ini tidak menyelesaikan masalah secara langsung, berikut adalah cara yang bagus untuk melakukan semuanya dari commandline dengan beberapa dependensi:
https://linux.die.net/man/1/pdftotext
Ini bekerja sangat baik untuk perbandingan pdf dasar. Jika Anda memiliki versi yang lebih baru dari pdftotext Anda dapat mencoba
-bbox
bukan-layout
.Sejauh program diffing pergi, saya suka menggunakan difuse, jadi perintahnya berubah sedikit:
http://diffuse.sourceforge.net/
Semoga itu bisa membantu.
sumber
Jika Anda memiliki 2-3 file pdf besar (atau epub atau format lain, baca di bawah) untuk dibandingkan, maka dimungkinkan untuk menggabungkan kekuatan:
kaliber (untuk mengonversi sumber Anda ke teks)
berbaur (untuk mencari perbedaan antara file teks) secara visual
paralel (untuk menggunakan semua inti sistem Anda untuk mempercepat)
Skrip di bawah ini menerima sebagai input format file berikut: MOBI, LIT, RRC, EPUB, ODT, HTML, CBR, CBZ, RTF, TXT, PDF dan LRS.
Jika tidak diinstal, instal meld, kaliber dan paralel:
Untuk dapat mengeksekusi kode dari mana saja di komputer Anda, simpan kode berikut dalam file bernama "diffepub" (tanpa ekstensi) di dalam direktori "/ usr / local / bin".
Pastikan pemiliknya adalah pengguna Anda dan memiliki izin eksekusi:
Untuk mengujinya, cukup ketik:
Saya mengujinya untuk membandingkan 2 revisi dari +1600 halaman pdf dan berfungsi sempurna. Karena kaliber ditulis menggunakan python untuk portabilitas, butuh 10 menit untuk mengonversi kedua file menjadi teks. Lambat, tapi bisa diandalkan.
sumber