Grep di Microsoft Word?

10

Grep di Microsoft Word?

Saya ingin menarik semua garis dengan string yang diberikan dari dokumen kata. Di dunia unix ... grep melakukan ini tanpa kesalahan. Windows kurang jelas bagi saya.

fretje
sumber

Jawaban:

10

Dengan Cygwin (atau akses ke mesin Linux) Anda bisa

antiword file.doc | grep "my phrase"

atau

catdoc file.doc | grep "my phrase"

Ada banyak konverter format file baris perintah di luar sana untuk menangkap dengan cara yang sama.

Solusi murni di-Word bisa dengan Ctrl + F (Temukan), dan kemudian Temukan Semua - namun, saya tidak yakin apakah semua versi MS Word memiliki tombol Temukan Semua .

chronos
sumber
2
Ketika saya melihat judul pertanyaan saya berpikir "Ha! Itu akan menyenangkan, bukan" Tidak pernah lagi saya harus meremehkan programmer GNU.
Phoshi
Versi terbaru dari catdocsegfault pada setiap .doc/ .docxfile yang saya berikan, dan antiwordhanya memberi tahu saya dokumen saya "bukan Dokumen Word". Apakah Anda tahu ada opsi lain?
detly
Tidak ada yang saya gunakan ... Pencarian cepat menunjukkan yang docx2txtada di repositori Debian - mungkin berfungsi. Saya juga akan melihat utilitas konversi format perintah OpenOffice / LibreOffice (unoconv), yang dapat digunakan untuk tujuan yang sama.
chronos
3

Saya tahu ini terdengar primitif, tetapi apa yang menghentikan Anda menyimpan file sebagai .txt dan kemudian merobeknya sesuai keinginan Anda.

Benteng
sumber
2
Memiliki ratusan dari mereka untuk melakukannya, adalah untuk apa.
tchrist
1

Apa yang dimaksud "garis" dalam konteks kata? Baris yang ditampilkan, yang berubah jika Anda melakukan sesuatu pada pemformatan halaman? Paragraf? Sesuatu yang lain

Anda dapat melakukan banyak hal dengan fungsi temukan dan ganti Word, termasuk mengubah pemformatan dan hal-hal yang tidak jelas lainnya, tetapi semuanya hanya akan bertindak berdasarkan teks yang ditemukan sendiri, bukan pada teks di sekitarnya.

Martha
sumber
grep punya regex yang sayang!
Phoshi
1

Ada dukungan untuk dokumen MS - Word, PowerPoint, Excel - di CRGREP yang saya kembangkan sebagai alat opensource gratis. Ini juga menangkap hal-hal sulit lainnya untuk mencari seperti tabel database, gambar, audio, arsip, PDF, dan kombinasi dari semuanya. Selamat bersenang-senang.

Craig
sumber
0

PowerGREP akan melakukan hal itu untuk Anda, dan cepat - tetapi tidak gratis. Ini bernilai setiap sen, menurut saya. Plus, ada uji coba gratis 30 hari.

Cuplikan layar pencarian PowerGREP melalui file Word

Tim Pietzcker
sumber
0

Tidak punya cukup perwakilan untuk berkomentar, tetapi saya bisa melihat masalah doc vs docx ini dibahas sehingga siapa pun yang mengejar utas (seperti saya) mungkin merasa ini membantu.

Anda tidak memerlukan alat khusus untuk file docx. docx adalah file XML zip.

Untuk mengekstrak dan menghapus XML, coba sesuatu berdasarkan

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

dari fu baris perintah

Fafhrd
sumber