Saya menggunakan pdftotext (bagian dari poppler-utils) untuk mengonversi dokumen PDF menjadi teks. Sebagian besar berhasil, tetapi satu hal yang saya harap dilakukan adalah menyisipkan baris kosong di antara paragraf terpisah alih-alih memadukannya.
Apakah ada cara untuk mendapatkan pdftotext untuk melakukan ini? Dan jika tidak, apakah ada utilitas pdf ke teks lain yang dapat melakukan ini?
pdf
conversion
dan
sumber
sumber
PDF to audio software for academic papers?
softwarerecs.stackexchange.com/questions/10640/...Jawaban:
Anda dapat mencoba
ebook-convert
dari Calibre.Jika ada, saya akan mengatakan itu salah arah: terlalu banyak jeda baris.
Hal lain yang pasti akan saya pertimbangkan adalah mengkonversi ke HTML menggunakan pdfreflow , dan kemudian mengkonversi HTML ke TXT.
sumber
ebook-convert
tidak dapat mengonversi tata letak multi-kolom, ini menggabungkan kolom menjadi satu kolom. Untuk tata letak multi-kolompdftotext
menghasilkan output yang jauh lebih baik. Batasan lebih lanjut dijelaskan di manual.calibre-ebook.com/conversion.html#convert-pdf-documents .Jika Anda menggunakan pdftotext, Anda dapat menggunakan
-layout
flag untuk mempertahankan tata letak teks pada halaman di file pdf input Anda:sumber
-r
(resolusi, default 72 dpi)Sebagai penggemar open source (dan otomatisasi) saya benci mengatakan ini, tetapi hasil terbaik yang saya dapatkan (pada PDF yang cukup besar dan kompleks) adalah membukanya di Adobe Reader, lalu pilih File | Save As Text.
(Saya pra-pemrosesan untuk percobaan analisis teks, bukan sebagai pembaca, tapi saya pikir pilihan pertama dan kedua saya akan sama.)
Saya telah membandingkan keluaran berdampingan. Pilihan kedua saya adalah ebook-convert.
Adobe : tersisa di FF untuk pemecah halaman, kiri dalam nomor halaman, belum mengubah judul / paragraf menjadi satu baris, tetapi telah memperbaiki tanda hubung. Sampah yang disembunyikan dalam PDF tidak mendapatkan hasil. Benar mendapatkan modal besar di awal bagian, misalnya "The", bukan "T he" atau bahkan "T he".
ebook-convert : Kiri dalam nomor halaman, dan beberapa sampah tersembunyi di header / footer (tetapi tidak ada FF). Mengonversi sebagian besar paragraf menjadi satu baris. Yang terlewat adalah spasi ganda! Peluru tidak selalu sejalan dengan teks. Benar mendapat "The" di awal bab ini.
pdftotext (tanpa --layout) : Tidak buruk, peluru berbaris, tetapi suara header / footer. FF ada di sana. Tanda hubung dihapus. Terburuk untuk awal bab huruf besar: "T \ n \ nhe".
pdftotext (dengan --layout) : Serupa, tetapi lebih banyak indentasi. "T he" untuk memulai bab.
pdftohtml >> pdfreflow >> htmltotext : Ini menghapus nomor halaman, tetapi masih sampah di header / footer. "T he" untuk memulai bab. Tanda hubung dihapus. (Ini menggunakan beberapa baris per paragraf, namun itu bukan baris yang sama seperti pada versi lain!)
sumber
ebook-convert
bekerja dengan baik.Jika Anda memiliki akun Google, Anda dapat menggunakan Google Documents untuk mengunggah PDF dan mengubahnya menjadi teks yang dapat diedit.
sumber
Saya juga mencoba pypdf dan membandingkannya dengan pdftotext pada dua dokumen. Itu memiliki lebih banyak linebreak dan membagi beberapa nama bagian (REFERENSI adalah REFERENSI).
pdf2txt melakukan output sampah lengkap.
Saya sering menggunakan pdfBox (java) jika pdftotext merusak output. Anda mungkin mencobanya.
sumber