Saya perlu file PDF ke teks sehingga saya dapat mencari mereka secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?
Mungkin terkait postingan, OCR dengan ubuntu di sini .
kaliber 's ebook-convertProgram commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengkonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya itu menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.
ebook-convert file.pdf file.txt
AbiWord dapat mengkonversi antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:
ebook-convert calibre ... pernahkah Anda melihat apa yang terjadi pada ligatur? Bleargh. mari kita begini: itu bukan program yang sangat efektif. pdftotext jauh lebih setia. saya belum pernah menemukan kesalahan dalam outputnya.
ixtmixilix
1
Anda dapat menggunakan lebih sedikit untuk melihat file pdf sebagai teks. Itu memanggil preprocessor, yaitu lesspipe, untuk memanggil pdftotext atau alat serupa.
Daniel Näslund
pdftotextmemberikan hasil yang lebih akurat daripada ebook-convertdan sangat cepat. ebook-convertlamban.
Amit Patel
pdftotextdengan -layoutbatu pilihan! calibremembutuhkan lebih dari 600mb untuk menginstal! Itu gila)
Stalinko
9
Anda dapat mengonversi PDF ke teks pada baris perintah dengan pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).
Anda dapat menggunakan Recoll
(Ubuntu: recoll ; OpenBSD: no port, tetapi ada satu untuk FreeBSD .) Untuk mencari di dalam berbagai jenis dokumen teks yang diformat, termasuk PDF. Ada GUI, dan itu membangun indeks secara otomatis di bawah tenda. Ini digunakan pdftotextuntuk mengkonversi PDF ke teks.
Acrobat Reader (setidaknya versi 9 di Linux) memiliki kemampuan pencarian multi-file terbatas (Anda dapat mencari di semua file dalam direktori).
pdftotext kemungkinan yang Anda cari: http://en.wikipedia.org/wiki/Pdftotext kecuali teks yang ingin Anda ekstrak benar-benar di bawah bentuk grafis, yang tidak biasa dengan dokumen pdf.
gPDFText mengonversi konten PDF ebook menjadi teks ASCII, diformat ulang untuk paragraf garis panjang, Ini berfungsi untuk saya dan memiliki antarmuka grafis.
Hai dan selamat datang di situs ini. Kami ingin jawaban menjadi sedikit lebih komprehensif di sini. Misalnya, Anda dapat menambahkan di mana gPDFTextdapat diperoleh, bagaimana itu dapat diinstal dan bagaimana itu akan digunakan untuk menjawab pertanyaan OP.
pdftotext
=pdfcat
.Jawaban:
Anda punya banyak pilihan!
pdftotext
dari poppler telah disebutkan.Ada program Haskell yang disebut
pdf2line
yang bekerja dengan baik.kaliber 's
ebook-convert
Program commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengkonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya itu menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.ebook-convert file.pdf file.txt
AbiWord dapat mengkonversi antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:
abiword --to=txt file.pdf
Namun pilihan lain adalah
podofotextextract
dari perpustakaan alat podofo PDF. Saya belum benar-benar mencobanya.Jika Anda menggabungkan dua alat Ghostscript,
pdf2ps
danps2ascii
, Anda memiliki pilihan lain.Saya sebenarnya dapat memikirkan beberapa metode lagi, tetapi saya akan membiarkannya untuk saat ini. ;)
sumber
pdftotext
memberikan hasil yang lebih akurat daripadaebook-convert
dan sangat cepat.ebook-convert
lamban.pdftotext
dengan-layout
batu pilihan!calibre
membutuhkan lebih dari 600mb untuk menginstal! Itu gila)Anda dapat mengonversi PDF ke teks pada baris perintah dengan pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utils
package).Anda dapat menggunakan Recoll (Ubuntu: recoll ; OpenBSD: no port, tetapi ada satu untuk FreeBSD .) Untuk mencari di dalam berbagai jenis dokumen teks yang diformat, termasuk PDF. Ada GUI, dan itu membangun indeks secara otomatis di bawah tenda. Ini digunakan
pdftotext
untuk mengkonversi PDF ke teks.Acrobat Reader (setidaknya versi 9 di Linux) memiliki kemampuan pencarian multi-file terbatas (Anda dapat mencari di semua file dalam direktori).
sumber
pdftotext kemungkinan yang Anda cari: http://en.wikipedia.org/wiki/Pdftotext kecuali teks yang ingin Anda ekstrak benar-benar di bawah bentuk grafis, yang tidak biasa dengan dokumen pdf.
sumber
gPDFText mengonversi konten PDF ebook menjadi teks ASCII, diformat ulang untuk paragraf garis panjang, Ini berfungsi untuk saya dan memiliki antarmuka grafis.
sumber
gPDFText
dapat diperoleh, bagaimana itu dapat diinstal dan bagaimana itu akan digunakan untuk menjawab pertanyaan OP.