Cara mengunduh situs web lengkap, tetapi mengabaikan semua file biner.
wget
memiliki fungsionalitas ini menggunakan -r
bendera tetapi mengunduh semuanya dan beberapa situs web terlalu banyak untuk mesin sumber daya rendah dan itu tidak digunakan karena alasan spesifik saya mengunduh situs.
Inilah baris perintah yang saya gunakan: wget -P 20 -r -l 0 http://www.omardo.com/blog
(blog saya sendiri)
wget
recursive
download
mime-types
Omar Al-Ithawi
sumber
sumber
Jawaban:
Anda dapat menentukan daftar resp yang diperbolehkan. pola nama file yang tidak diizinkan:
Diizinkan:
Dilarang:
LIST
adalah daftar pola / ekstensi nama file yang dipisahkan koma.Anda dapat menggunakan karakter yang dipesan berikut ini untuk menentukan pola:
*
?
[
]
Contoh:
-A png
-R css
-R avatar*.png
Jika file tidak memiliki ekstensi ekstensi. nama file tidak memiliki pola yang dapat Anda manfaatkan, Anda perlu penguraian tipe MIME, saya kira (lihat jawaban Lars Kotthoffs ).
sumber
Anda dapat mencoba menambal wget dengan ini (juga di sini ) untuk memfilter menurut jenis MIME. Patch ini sudah cukup tua sekarang, jadi mungkin tidak berfungsi lagi.
sumber
Wget baru (Wget2) sudah memiliki fitur:
Wget2 belum dirilis pada hari ini, tetapi akan segera. Debian tidak stabil sudah memiliki versi alfa yang dikirimkan.
Lihatlah https://gitlab.com/gnuwget/wget2 untuk info lebih lanjut. Anda dapat memposting pertanyaan / komentar langsung ke [email protected].
sumber
Saya sudah mencoba pendekatan yang sama sekali berbeda dengan menggunakan Scrapy, namun memiliki masalah yang sama! Inilah cara saya menyelesaikannya: SO: Python Scrapy - filter berbasis mimetype untuk menghindari unduhan file non-teks?
sumber