Saya ingin mengubah dokumen DJVU menjadi dokumen PDF, memisahkan dan melestarikan lapisan teks dan gambar sementara juga menjaga struktur dari DJVU. Bagaimana saya bisa melakukan ini di Ubuntu?
(Saya kemudian akan menggunakan Calibre untuk mengonversi ke ePub / Mobi, jadi jika ada plug-in Calibre untuk seluruh proses ini yang akan sempurna bagi saya!)
Catatan1: Mencetak dari Evince, mengekspor dari DJview, atau apa pun menggunakan paket ddjvu , bukan solusi yang memadai karena mereka membuang lapisan teks, hanya menyimpan gambar.
Note2: Menggunakan DJVULibre tampaknya hanya mengekstraksi layer teks dan gambar tidak diekstraksi . Demikian pula, menyalin teks "secara manual" kehilangan struktur dokumen dan gambar.
Berikut ini satu cara, yang akan membutuhkan beberapa alat yang tidak terlalu umum:
Kita dapat menggunakan
djvu2hocr
perintah (dariocrodjvu
paket) untuk mengekstrak lapisan teks tersembunyi dari file DjVu (tidak melakukan OCR atau serupa, hanya mengekstrak lapisan teks dengan geometri), yaitu:djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
intervensi mengoreksi nama kelas dalam output hOCR (yang hanya file HTML sederhana)Sekarang kami mengekstrak halaman DjVu ke format TIFF dengan:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
sehingga kita akhiri dengan file ini di folder tidak bekerja:
Di sinilah
pdfbeads
berperan, dan kami mengeksekusi sederhana:pdfbeads -o pg10.pdf
kemudian program yang bagus ini menangani semua yang ada di dalam folder ini (file HTML dan TIFF dengan nama dasar yang sama) dan menghasilkan output file PDF dengan beberapa produk sampingan:
yang identik dengan input file DjVu dan memiliki lapisan teks di dalamnya:
Ringkasan komentar:
Komentar panjang di bawah ini membahas mewakili gambar yang lebih kecil dari halaman dokumen DjVu sebagai objek yang terpisah, yang tidak mudah dilakukan karena halaman dokumen DjVu sendiri hanyalah gambar tunggal dengan lapisan teks opsional, tanpa "informasi" tentang gambar yang lebih kecil sebagai objek terpisah. Jika dokumen DjVu memiliki gambar berwarna, maka biasanya akan ditempatkan pada lapisan latar belakang; dalam hal ini pengguna dapat mengambil keuntungan dari alat-alat seperti
ddjvu
(ekstrak hanya lapisan latar belakang) danimagemagick
(potong otomatis) untuk hanya menghasilkan gambar, bukan seluruh kanvas, tetapi tidak dapat otomatis untuk membuat output PDFPendekatan lain yang lebih waras, tetapi lebih lambat adalah penggunaan alat GUI OCR biasa.
gscan2pdf
(> 1.0) disarankan sebagai kandidat yang memungkinkan untuk PC Linuxsumber
Ada djvu2pdf tetapi bergantung pada ghostscript sehingga mungkin menjadi opsi pencetakan lain. Saya masih menyarankan Anda melihatnya, kalau-kalau itu lebih pintar daripada saya memberikannya kredit.
Itu tidak ada dalam repo tetapi Anda dapat mengunduh deb dari situs pembuatnya: http://0x2a.at/s/projects/djvu2pdf
** Masukkan pemberitahuan wajib tentang mengunduh / menginstal hal-hal dari luar repo di sini **
sumber
Menggunakan DJVULibre , seseorang dapat mengekstraksi layer teks melalui
terminal
perintah:djvutxt myfile.djvu > myfile-ocr.txt
ataudjvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(Keduanya melakukan hal yang sama, dan ditemukan di sini )
Memformat memerlukan upaya (karena banyak simbol tidak dikonversi dengan benar) dan gambar tidak dipulihkan .
sumber
http://www.djvu-pdf.com/ - Menggunakan situs web ini Anda dapat mengonversi djvu ke pdf.
sumber
Cara termudah: gunakan gscan2pdf untuk mengimpor djvu, lalu OCR dengan tesseract, dan akhirnya simpan sebagai pdf. Teks OCR dalam pdf mungkin sedikit berbeda dari djvu asli, dan konversi mungkin memakan waktu cukup lama, tetapi metode ini adalah no-brainer dan berfungsi.
sumber
Saya membuat skrip jawaban @ zetah.
Ini tersedia di sini: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b
sumber