Misalnya untuk bzip
ada pbzip , versi paralel dari bzip
. Apakah ada alat paralelisasi untuk sort
meningkatkan kinerja?
performance
sort
miku
sumber
sumber
Satu hal yang selalu membantu saya dengan sort adalah memberikannya memori sebanyak mungkin, sehingga mengurangi pertukaran, misalnya:
sumber
sort -S 50%
Jika file Anda cukup besar, pengurutan akan menyebabkan swap disk, baik karena memori virtual yang dialokasikan tumbuh terlalu besar, atau karena
sort
program itu sendiri menukar potongan ke disk dan kembali.sort
Implementasi yang lebih lama lebih cenderung memiliki perilaku semacam "sort via disk buffer" ini, karena itu adalah satu-satunya cara untuk mengurutkan file besar di masa lalu.sort
memiliki-m
opsi yang dapat membantu Anda di sini. Mungkin lebih cepat untuk membagi file menjadi potongan - katakan dengansplit -l
- mengurutkannya secara mandiri, kemudian menggabungkannya kembali.Kemudian lagi, mungkin inilah yang dilakukan "sortir melalui disk buffer". Satu-satunya cara untuk mengetahui apakah itu membantu adalah dengan membandingkannya pada beban pengujian khusus Anda. Parameter kritis adalah jumlah baris yang Anda berikan
split -l
.sumber
split
danmerge
dan melihat apakah itu membantu.merge(1)
diterapkan di sini. Gunakansort -m
.sort --merge
.Saya mendapatkan penguatan yang sangat signifikan
sort -n
, yang membutuhkan nilai numerik (float atau integer) di semua kolom yang dipilih, tanpa notasi ilmiah.Kemungkinan lain yang mungkin membawa perbaikan besar dalam proses Anda adalah menggunakan folder yang dipetakan memori
/dev/shm
untuk menangani file perantara.sumber
Biasanya Linux semacam melakukan beberapa hal bagus untuk mematuhi aturan kesetaraan Unicode ... jika Anda mengubah lokal ke C itu beralih ke byte hanya ...
Untuk file 1.4GB perbedaan pada mesin saya adalah 20s vs 400s (!!!)
sumber
LC_ALL=C
akan cukup?LC_COLLATE
sudah cukup. AFAIKsort
menggunakanstrcoll
untuk perbandingan dan halaman manual mengatakan perilaku tergantung padaLC_COLLATE
file dipecah dan mengurutkannya akan meningkatkan kecepatan penyortiran
sumber