Pada dasarnya, saya ingin merayapi seluruh situs dengan Wget, tetapi saya membutuhkannya untuk TIDAK PERNAH mengunduh aset lain (mis. Citra, CSS, JS, dll.). Saya hanya ingin file HTML.
Pencarian Google sama sekali tidak berguna.
Ini perintah yang sudah saya coba:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Situs kami adalah hybrid flat-PHP dan CMS. Jadi, HTML "file" bisa /path/to/page
, /path/to/page/
, /path/to/page.php
, atau /path/to/page.html
.
Saya bahkan sudah memasukkan -R js,css
tetapi masih mengunduh file, MAKA menolaknya (buang-buang bandwidth, CPU, dan server load sia-sia!).
wget
web-crawler
Nathan JB
sumber
sumber
Length: 558 [text/css]
pada file yang tidak saya inginkan. Jika saya bisa menghentikan permintaan jika header tidak kembalitext/html
, saya akan gembira.Jawaban:
Komentar @ernie tentang
--ignore-tags
menuntun saya ke jalan yang benar! Ketika saya melihat ke--ignore-tags
dalamman
, saya perhatikan--follow-tags
.Pengaturan
--follow-tags=a
memungkinkan saya untuk melewatiimg
,link
,script
, dllIni mungkin terlalu terbatas untuk beberapa orang yang mencari jawaban yang sama, tetapi sebenarnya berfungsi dengan baik dalam kasus saya (tidak apa-apa jika saya melewatkan beberapa halaman).
Jika ada yang menemukan cara untuk memungkinkan pemindaian SEMUA tag, tetapi mencegah
wget
dari menolak file hanya setelah mereka diunduh (mereka harus menolak berdasarkan nama file atau header tipe Konten sebelum mengunduh), saya akan dengan senang hati menerima jawaban mereka!sumber
bagaimana dengan menambahkan opsi:
sumber