Di Linux - Bagaimana cara mengekstrak teks dari .pdf
teks yang sebenarnya adalah teks, bukan gambar yang dipindai? Saya menginginkan sesuatu yang dapat saya gunakan pada baris perintah / dalam skrip, bukan secara interaktif. (Saya tidak ingin mengonversi .tif
dan menggunakan OCR - teks sudah tersedia di .pdf
file, jadi mengapa memperkenalkan ketidakakuratan dari OCR yang tidak sempurna?)
23
Jawaban:
pdftotext
yang datang dengan poppler akan mencoba mengekstraksi teks apa pun yang ditemukan dalam PDF.sumber
Jawaban Ignacio baik-baik saja. Bahkan, itu akan menjadi hal pertama dalam daftar saya. Nah, itu dan mungkin untuk menyarankan
pdftohtml
alat yang juga dilengkapi dengan poppler, dikombinasikan dengan pdfreflow jika Anda ingin mencoba merakit kembali teks menjadi paragraf, dll. (Tentu saja, ini akan memberikan Anda hasil HTML, tetapi mengubah HTML menjadi teks biasa dapat dilakukan dengan banyak cara.)Berikut ini beberapa opsi lain juga.
The
ebook-convert
tool baris perintah dari Calibre , yang dapat mengkonversi .PDFs ke teks biasa (atau RTF atau sejumlah format ebook, seperti ePub, dll)pdftxtextract
dari PodofoAbiword dapat dipanggil dari commandline untuk mengkonversi antara format apa pun yang dapat dimasukkan / diekspor ke, dan dengan plugin impor yang sesuai, ini termasuk PDF:
abiword --to=txt file.pdf
(Dalam keadilan, saya pikir AbiWord dan kaliber keduanya menggunakan perpustakaan poppler, tapi saya tidak positif.)
sumber