Hitung semua kemunculan string dalam banyak file dengan grep

289

Saya punya banyak file log. Saya perlu mencari tahu berapa kali sebuah string muncul di semua file.

grep -c string *

kembali

...
file1:1
file2:0
file3:0
...

Menggunakan pipa saya hanya bisa mendapatkan file yang memiliki satu atau lebih kejadian:

grep -c string * | grep -v :0

...
file4:5
file5:1
file6:2
...

Bagaimana saya bisa mendapatkan hanya jumlah gabungan? (Jika kembali file4:5, file5:1, file6:2, saya ingin kembali 8.)

grep Željko Filipin
sumber

1

Bisakah Anda memberi tahu saya apa yang dilakukan grep -v: 0? . Saya tahu ini penting untuk file yang memiliki kejadian lebih besar dari 0. Apa maksud opsi -v dan: 0? Mohon beritahu saya.

Gautham Honnavara

@GauthamHonnavara grep: 0 mencari garis yang cocok dengan string: 0. -v adalah opsi untuk membalikkan pencarian itu jadi alih-alih menggunakan grep -v: 0 berarti menemukan semua baris yang tidak mengandung: 0 sehingga baris dengan file4: 5 dan file27: 193 semua akan melewati karena mereka tidak mengandung: 0

penguin359

Anda dapat memilih banyak file menggunakan ruang. grep file1 file2 --options

Dnyaneshwar Harer

288

cat * | grep -c string

Bombe
sumber

9

Ini memiliki batasan yang sama dengan menghitung beberapa kejadian pada satu baris hanya sekali. Saya menduga perilaku ini tidak masalah dalam kasus ini.

Michael Haren

@Michael Haren Ya, hanya ada satu kemunculan string dalam satu baris.

Željko Filipin

2

Saya lebih suka melakukannya grep -c string<*Jadi hanya mengganti ruang dengan kurang dari.

JamesM-SiteGen

48

Tidak membahas beberapa kejadian secara

berurutan

2

Ini tidak berfungsi jika Anda ingin mencari di subdirektori juga, sedangkan grep -odan wc -lmemang. kucing lebih cepat dalam kasus-kasus seperti pertanyaan aslinya.

Leagsaidh Gordon

296

Ini berfungsi untuk beberapa kejadian per baris:

grep -o string * | wc -l

Jeremy Lavine
sumber

2

Ini juga bekerja: grep -o string * --exclude-dir=some/dir/one/ --exclude-dir=some/dir/two | wc -l.

seorang coder

2

grep -ioR string * | wc -ladalah apa yang saya gunakan untuk melakukan pencarian case-insensitive, recursive, only-matching

LeonardChallis

2

Yang ini menunjukkan file yang relevan dan kemudian jumlah total kecocokan:grep -rc test . | awk -F: '$NF > 0 {x+=$NF; $NF=""; print} END{print "Total:",x}'

Yaron

28

grep -oh string * | wc -w

akan menghitung banyak kemunculan dalam satu baris

Kaofu
sumber

24

grep -oh "... my that curry was strong" * >> wc:)

icc97

23

Alih-alih menggunakan -c, hanya pipa itu ke wc -l.

grep string * | wc -l

Ini akan membuat daftar setiap kemunculan pada satu baris dan kemudian menghitung jumlah baris.

Ini akan melewatkan contoh di mana string muncul 2+ kali pada satu baris.

Michael Haren
sumber

2

Perpipaan ke "wc-l" juga bekerja dengan baik bersama "grep -r 'test'." yang memindai secara rekursif semua file untuk string 'test' di semua direktori di bawah ini.

stevek

16

cat * | grep -c string

Salah satu aplikasi langka yang bermanfaat cat.

Joachim Sauer
sumber

9

Sesuatu yang berbeda dari semua jawaban sebelumnya:

perl -lne '$count++ for m/<pattern>/g;END{print $count}' *

Vijay
sumber

senang melihat pendekatan yang tidak menggunakan grep, esp karena grep saya (di windows) tidak mendukung opsi -o.

David Roussel

9

Anda dapat menambahkan -Runtuk mencari secara rekursif (dan menghindari menggunakan cat) dan -Imengabaikan file biner.

grep -RIc string .

azmeuk
sumber

7

Solusi AWK wajib:

grep -c string * | awk 'BEGIN{FS=":"}{x+=$2}END{print x}'

Berhati-hatilah jika nama file Anda menyertakan ":".

mumrah
sumber

5

Solusi AWK yang juga menangani nama file termasuk titik dua:

grep -c string * | sed -r 's/^.*://' | awk 'BEGIN{}{x+=$1}END{print x}'

Perlu diingat bahwa metode ini masih tidak menemukan banyak kemunculan stringpada baris yang sama.

Kreuvf
sumber

4

Jika Anda ingin jumlah kemunculan per file (contoh untuk string "tcp"):

grep -RIci "tcp" . | awk -v FS=":" -v OFS="\t" '$2>0 { print $2, $1 }' | sort -hr

Contoh output:

53  ./HTTPClient/src/HTTPClient.cpp
21  ./WiFi/src/WiFiSTA.cpp
19  ./WiFi/src/ETH.cpp
13  ./WiFi/src/WiFiAP.cpp
4   ./WiFi/src/WiFiClient.cpp
4   ./HTTPClient/src/HTTPClient.h
3   ./WiFi/src/WiFiGeneric.cpp
2   ./WiFi/examples/WiFiClientBasic/WiFiClientBasic.ino
2   ./WiFiClientSecure/src/ssl_client.cpp
1   ./WiFi/src/WiFiServer.cpp

Penjelasan:

grep -RIci NEEDLE . - mencari string NEEDLE secara rekursif dari direktori saat ini (mengikuti symlink), mengabaikan binari, menghitung jumlah kemunculan, mengabaikan case
awk ... - perintah ini mengabaikan file dengan nol kejadian dan memformat garis
sort -hr - mengurutkan garis dalam urutan terbalik dengan angka di kolom pertama

Tentu saja, ia bekerja dengan perintah grep lainnya dengan opsi -c(hitung) juga. Sebagai contoh:

grep -c "tcp" *.txt | awk -v FS=":" -v OFS="\t" '$2>0 { print $2, $1 }' | sort -hr

Andriy Makukha
sumber

3

Anda dapat menggunakan yang sederhana grepuntuk menangkap jumlah kejadian secara efektif. Saya akan menggunakan -iopsi untuk memastikan STRING/StrING/stringditangkap dengan benar.

Baris perintah yang memberi nama file:

grep -oci string * | grep -v :0

Baris perintah yang menghapus nama file dan mencetak 0 jika ada file tanpa kejadian:

grep -ochi string *

Mitul Patel
sumber

Bisakah Anda menjelaskan lebih lanjut jawaban Anda dengan menambahkan sedikit deskripsi tentang solusi yang Anda berikan?

abarisone

3

varian rekursif pendek :

find . -type f -exec cat {} + | grep -c 'string'

Dmitry Tarashkevich
sumber

1

Terima kasih! Hanya solusi Anda yang berfungsi untuk saya (menyimpulkan kecocokan semua file).

Nestor

1

Satu-satunya solusi Grep yang saya uji dengan grep for windows:

grep -ro "pattern to find in files" "Directory to recursively search" | grep -c "pattern to find in files"

Solusi ini akan menghitung semua kemunculan walaupun ada banyak yang terjadi pada satu baris. -rpencarian direktori secara rekursif, -oakan "hanya menampilkan bagian dari garis POLA yang cocok" - inilah yang membagi banyak kejadian pada satu baris dan membuat mencetak grep setiap pertandingan pada baris baru; kemudian pipa hasil yang dipisahkan baris baru ke grep dengan -cuntuk menghitung jumlah kejadian menggunakan pola yang sama.

Quantic
sumber

1

Ini adalah cara alternatif AWK yang lebih cepat daripada grep dalam melakukan ini, yang menangani beberapa kecocokan <url>per baris, dalam kumpulan file XML dalam direktori:

awk '/<url>/{m=gsub("<url>","");total+=m}END{print total}' some_directory/*.xml

Ini bekerja dengan baik dalam kasus di mana beberapa file XML tidak memiliki jeda baris.

Excalibur
sumber

0

Oneliner lain menggunakan fungsi baris perintah dasar yang menangani beberapa kejadian per baris.

 cat * |sed s/string/\\\nstring\ /g |grep string |wc -l

NTwoO
sumber

Hitung semua kemunculan string dalam banyak file dengan grep

Jawaban: