Apakah ada semacam PDF ke text -converter?

21

Saya perlu file PDF ke teks sehingga saya dapat mencari mereka secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?

Mungkin terkait postingan, OCR dengan ubuntu di sini .

otto
sumber
3
Pertanyaan serupa di Super User
Gilles 'SO- stop being evil'
Jika itu adalah PDF "nyata" (terbuat dari teks, dll) pdftotext adalah taruhan terbaik Anda. Jika gambar, taruhan terbaik Anda adalah beberapa hal OCR.
vonbrand
1
Saya selalu menggunakan pdftotext= pdfcat.
isomorphismes
pertanyaan serupa di askubuntu
Trevor Boyd Smith

Jawaban:

22

Anda punya banyak pilihan!

pdftotextdari poppler telah disebutkan.

Ada program Haskell yang disebutpdf2line yang bekerja dengan baik.

kaliber 's ebook-convertProgram commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengkonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya itu menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.

ebook-convert file.pdf file.txt

AbiWord dapat mengkonversi antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:

abiword --to=txt file.pdf

Namun pilihan lain adalah podofotextextractdari perpustakaan alat podofo PDF. Saya belum benar-benar mencobanya.

Jika Anda menggabungkan dua alat Ghostscript, pdf2psdan ps2ascii, Anda memiliki pilihan lain.

Saya sebenarnya dapat memikirkan beberapa metode lagi, tetapi saya akan membiarkannya untuk saat ini. ;)

luar biasa
sumber
ebook-convert calibre ... pernahkah Anda melihat apa yang terjadi pada ligatur? Bleargh. mari kita begini: itu bukan program yang sangat efektif. pdftotext jauh lebih setia. saya belum pernah menemukan kesalahan dalam outputnya.
ixtmixilix
1
Anda dapat menggunakan lebih sedikit untuk melihat file pdf sebagai teks. Itu memanggil preprocessor, yaitu lesspipe, untuk memanggil pdftotext atau alat serupa.
Daniel Näslund
pdftotextmemberikan hasil yang lebih akurat daripada ebook-convertdan sangat cepat. ebook-convertlamban.
Amit Patel
pdftotextdengan -layoutbatu pilihan! calibremembutuhkan lebih dari 600mb untuk menginstal! Itu gila)
Stalinko
9

Anda dapat mengonversi PDF ke teks pada baris perintah dengan pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).

Anda dapat menggunakan Recoll (Ubuntu: recoll ; OpenBSD: no port, tetapi ada satu untuk FreeBSD .) Untuk mencari di dalam berbagai jenis dokumen teks yang diformat, termasuk PDF. Ada GUI, dan itu membangun indeks secara otomatis di bawah tenda. Ini digunakan pdftotextuntuk mengkonversi PDF ke teks.

Acrobat Reader (setidaknya versi 9 di Linux) memiliki kemampuan pencarian multi-file terbatas (Anda dapat mencari di semua file dalam direktori).

Gilles 'SANGAT berhenti menjadi jahat'
sumber
-1

gPDFText mengonversi konten PDF ebook menjadi teks ASCII, diformat ulang untuk paragraf garis panjang, Ini berfungsi untuk saya dan memiliki antarmuka grafis.

Charles
sumber
3
Hai dan selamat datang di situs ini. Kami ingin jawaban menjadi sedikit lebih komprehensif di sini. Misalnya, Anda dapat menambahkan di mana gPDFTextdapat diperoleh, bagaimana itu dapat diinstal dan bagaimana itu akan digunakan untuk menjawab pertanyaan OP.
terdon