Grep di Microsoft Word?
Saya ingin menarik semua garis dengan string yang diberikan dari dokumen kata. Di dunia unix ... grep melakukan ini tanpa kesalahan. Windows kurang jelas bagi saya.
microsoft-word
grep
fretje
sumber
sumber
catdoc
segfault pada setiap.doc
/.docx
file yang saya berikan, danantiword
hanya memberi tahu saya dokumen saya "bukan Dokumen Word". Apakah Anda tahu ada opsi lain?docx2txt
ada di repositori Debian - mungkin berfungsi. Saya juga akan melihat utilitas konversi format perintah OpenOffice / LibreOffice (unoconv), yang dapat digunakan untuk tujuan yang sama.Saya tahu ini terdengar primitif, tetapi apa yang menghentikan Anda menyimpan file sebagai .txt dan kemudian merobeknya sesuai keinginan Anda.
sumber
Apa yang dimaksud "garis" dalam konteks kata? Baris yang ditampilkan, yang berubah jika Anda melakukan sesuatu pada pemformatan halaman? Paragraf? Sesuatu yang lain
Anda dapat melakukan banyak hal dengan fungsi temukan dan ganti Word, termasuk mengubah pemformatan dan hal-hal yang tidak jelas lainnya, tetapi semuanya hanya akan bertindak berdasarkan teks yang ditemukan sendiri, bukan pada teks di sekitarnya.
sumber
Ada dukungan untuk dokumen MS - Word, PowerPoint, Excel - di CRGREP yang saya kembangkan sebagai alat opensource gratis. Ini juga menangkap hal-hal sulit lainnya untuk mencari seperti tabel database, gambar, audio, arsip, PDF, dan kombinasi dari semuanya. Selamat bersenang-senang.
sumber
PowerGREP akan melakukan hal itu untuk Anda, dan cepat - tetapi tidak gratis. Ini bernilai setiap sen, menurut saya. Plus, ada uji coba gratis 30 hari.
sumber
Tidak punya cukup perwakilan untuk berkomentar, tetapi saya bisa melihat masalah doc vs docx ini dibahas sehingga siapa pun yang mengejar utas (seperti saya) mungkin merasa ini membantu.
Anda tidak memerlukan alat khusus untuk file docx. docx adalah file XML zip.
Untuk mengekstrak dan menghapus XML, coba sesuatu berdasarkan
dari fu baris perintah
sumber
Solusi cepat, gratis, sumber terbuka, dan lintas platform: https://github.com/phiresky/ripgrep-all
sumber