Membuat wget tidak mengunduh file yang lebih besar dari ukuran X

9

Oke, saya menyerah. Bagaimana cara membatasi ukuran file mana yang diunduh, seperti misalnya saya tidak ingin ada file yang lebih besar dari 2 MB?

Nathaniel
sumber

Jawaban:

5

Satu-satunya opsi batasan yang saya tahu yang wgetmendukung adalah -Qberalih untuk kuota. Ini bukan yang Anda inginkan, karena ini akan berhenti setelah batas gabungan dari semua file yang Anda unduh, tidak secara individual. Memipis setiap tautan secara terpisah dengan -Qsakelar juga tidak akan berfungsi, seperti yang dijelaskan di halaman manual .

Saya tidak tahu lingkungan apa yang Anda gunakan, tetapi crawler mendukung batasan ukuran file dengan max-length-bytes dan berjalan pada platform Java.

dari manual pengguna mereka :

  • max-length-bytes

Jumlah maksimum byte untuk diunduh per dokumen. Akan memotong file setelah batas ini tercapai.

Secara default, nilai ini diatur ke nilai yang sangat besar (dalam kisaran exabyte) yang tidak akan pernah tercapai dalam praktiknya.

John T
sumber
Hmmm. Baik. Itu mengulangi banyak dari apa yang saya temukan tetapi jawaban yang baik pula. Saya tidak tahu bahwa Heritrix memotong file daripada melewatkannya.
Nathaniel
2

Jika ini tentang " mengunduh 2MB maks " daripada " mengunduh file dengan maks 2MB " Anda bisa membatasi output yang disimpan ke disk.

wget -O - $url |head -c 1024(dengan opsional > $SaveAsFile) -> menyimpan KB pertama dan sisanya akan terpotong.

(cukup untuk melihat " OK: $ Pesan ", tidak membunuh / tmp saya dengan banyak pesan kesalahan dari remote ;-))

Tabakhase
sumber
1

Ini mungkin dengan bantuan tambalan pihak ketiga: http://yurichev.com/wget.html

Dennis Yurichev
sumber
Tinjau posting ini , Anda harus.
James Mertz
@ Krono ada tombol "edit" di sana jika Anda pikir jawabannya perlu diperluas. Secara pribadi sepertinya tidak apa-apa, mengingat kalimat # 1 dari halaman tertaut menjelaskan opsi baru ...
supervacuo