Saya perlu cara untuk mengekstrak teks dari semua jenis dokumen MS Office (Word, Excel, Powerpoint), di Linux. Saya membayangkan bahwa mungkin ada beberapa pendekatan berbeda untuk mencapai ini, seperti skrip Bash atau Python, atau mengubahnya menjadi PDF dan kemudian mengekstraksi teks menggunakan alat seperti pdftotext.
Sepertinya ini mungkin persyaratan biasa. Apakah ada prosedur atau alat yang mapan untuk melakukannya dengan mudah?
Saya akhirnya menemukan alat yang sempurna untuk mem-parsing dokumen skrip, ini adalah apache-tika, ia dapat mem-parsing gazillion format non-teks menjadi teks yang sangat keren!
Dapatkan Apache Tika di sini:
http://tika.apache.org/
(Pengguna Mac Homebrew:
brew install tika
)Antarmuka baris perintah berfungsi seperti ini:
tika --text something.docx > something.txt
sumber
Abiword dapat dikonversi dari baris perintah di antara format file apa pun yang diketahuinya.
Konversi dari Word ke teks biasa:
abiword --to=txt myfile.doc
Buat pdf dari file Word:
abiword --to=pdf myfile.doc
Dan seterusnya. Hasil dalam kasus ini adalah myfile.txt atau myfile.pdf. Jika Anda ingin menentukan nama output, Anda juga dapat melakukannya:
abiword --to=txt --to-name=output.txt myfile.doc
Konversi ODT ke Word:
abiword --to=doc myfile.odt
Konversi Kata ke ODT:
abiword --to=odt myfile.doc
Dalam keadilan untuk jawaban lain, perlu dicatat bahwa AbiWord menggunakan wvWare untuk menangani dokumen Word, tetapi bahkan situs wvWare merekomendasikan untuk menggunakan AbiWord sebagai gantinya untuk sebagian besar konversi.
Saya benci pengolah kata. Ini adalah alasan utama saya menginstal AbiWord.
Anda mungkin juga tertarik pada unoconv , yang merupakan alat serupa yang mendukung format yang dikenal OpenOffice (yang akan mencakup spreadsheet dan sejenisnya), tetapi saya tidak punya pengalaman dengannya secara pribadi.
sumber
Dengan LibreOffice yang dapat Anda lakukan:
sumber
Anda dapat menggunakan CUPS (printer virtual) dan dengan menggunakan ld.
sumber
wv adalah salah satu opsi dan IIRC OpenOffice dapat dikatakan dari baris perintah untuk mengekspor sebagai pdf dan keluar.
sumber
Jika Anda ingin menggunakan Apache Tika dalam proyek Python, silakan periksa posting blog ini .
sumber
1.doc catdoc atau antiword untuk mengkonversi file doc Anda dapat menggunakan perintah catdoc file.doc> file atau antiword file.doc> file berikut
docx docx2txt
pdf emacs file.pdf file ctrl-x ctrl-s
sumber
Docsplit adalah alat yang sempurna untuk mengekstraksi teks dari pdf. Itu permata ruby. Jadi Anda harus menginstal ruby dan gem di sistem linux Anda sebelum menggunakan perintah docsplit.
Jika sistem Anda tidak memiliki ruby dan permata, silakan ikuti instruksi.
Anda harus root untuk menginstal perangkat lunak (dengan asumsi Anda ingin itu tersedia untuk semua pengguna).
Instal ruby di linux: yum install ruby
Instal gem, silakan unduh paket permata terbaru, lalu ikuti instruksi
tar xzf rubygems-xxxx.tgz
cd rubygems-xxxx
ruby setup.rb
Sekarang RubyGems terinstal, Anda harus memiliki perintah gem (gem adalah perintah yang digunakan untuk berinteraksi dengan sistem paket RubyGems). Uji dengan menjalankan:
daftar permata
Sekarang, lanjutkan ke langkah berikutnya, untuk menginstal permata docsplit, silakan kunjungi situs berikut. http://documentcloud.github.com/docsplit/
sumber