Bagaimana mengonversi pdf ke format e-book

8

Apakah ada cara untuk mengubah dokumen PDF menjadi format e-book seperti epub, azw atau mobi? Saya mencari aplikasi, yang cepat dalam konversi. Saya baru saja mencoba kaliber. Setelah 10 menit bahkan 2% dari konversi telah tercapai. Jadi tolong jangan kaliber. CLI lebih disukai.

ManuelSchneid3r
sumber

Jawaban:

6

Anda harus mencoba pdftotext(berada di bawah Ubuntu dalam paket poppler-utils). Ini adalah konverter baris perintah. Diasumsikan bahwa PDF memiliki teks dan tidak hanya terdiri dari gambar.

Jika file PDF terdiri dari gambar (tanpa info OCR), Anda harus mencari solusi OCR, yang jauh lebih lambat.

Saya telah berhasil menggunakan metode OCR juga pada teks PDF yang diacak (dengan memposisikan karakter individu pada halaman secara non-linear). Kemudian Anda menggunakan mis pdftoppmuntuk mendapatkan gambar individual dari halaman dan OCR itu.

Anthon
sumber
6

Saya biasanya menggunakan Calibre , untuk mengkonversi dari berbagai format (epub, mobi, dan pdf). Cukup mudah untuk mengkonversi dengan ini, ini adalah screenshot, ada yang lain dan tutorial video juga.

tangkapan layar

   ss kaliber

slm
sumber
3
Apa bagian dari "tolong jangan kaliber" tidak jelas?
mlp
5
Saat menjawab pertanyaan di situs SE mana pun Anda melayani OP dan siapa pun yang menemukan utas T&J ini di masa mendatang. Jawaban ini dimaksudkan untuk mencakup semua pangkalan bagi individu-individu itu. Calibre juga mungkin merupakan pilihan terbaik, mungkin OP memiliki versi kereta ATAU itu salah konfigurasi. Saya sudah menggunakannya puluhan kali dan melakukan konversi dengan baik.
slm
Saya tidak dapat mengonversi file pfd ke epub dalam tata letak yang tetap. Bisakah Anda memberi tahu saya apa langkah-langkah yang perlu diikuti untuk mengkonversi pdf ke epub dalam tata letak yang tetap.
mohan rathour
1

Saya harus melakukan ini untuk file PDF sekali, dan ini hasilnya (menggunakan pdftohtml dari poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Umpan zip ke Calibre dan dikonversi ke EPUB. Saring semua properti CSS (seperti warna, font).

Setiap file PDF berbeda - tidak ada solusi pasti. Di atas bekerja untuk satu kasus khusus - Anda harus lemah pdftohtml / pdftotext dan kemudian men-tweak output agar sesuai dengan kebutuhan Anda.

Jika ini gagal dan Anda harus menggunakan OCR, saya sudah beruntung dengan runcing. Tapi coba juga tesseract, ocrad, gocr. Namun semua itu membutuhkan kerja manual untuk hasil yang baik.

frostschutz
sumber