Saya mencoba mirror blog, misalnya www.example.com
dengan wget
.
Saya menggunakan wget dengan opsi berikut (variabel shell diganti dengan benar):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Blog berisi gambar yang berada di domain lain.
Meskipun saya telah menentukan -p
opsi (unduh aset halaman tertaut) gambar-gambar ini tidak diunduh kecuali saya menentukan setiap domain secara eksplisit dalam -D
opsi.
Jika saya menghilangkan -D
opsi maka wget akan mengikuti setiap tautan di luar www.example.com
dan mengunduh seluruh internet.
Apakah mungkin untuk wget
mengikuti setiap tautan di bawah www.example.com
dan mengunduh aset yang diperlukan setiap halaman, apakah itu berada di domain yang sama atau tidak tanpa saya harus menentukan setiap domain secara eksplisit?
wget -N -E -H -k -K -p
pertama, dan muncul dengan skrip untuk mengambil gambar yang ditautkan hilang.-D $domains
juga-H
. Tanpanya-H
harus tetap dalam domain Anda tetapi masih mengambil aset halaman langsung, bahkan ketika mereka berada di domain yang berbeda.Jawaban:
Tidak, satu-satunya cara adalah menentukan domain yang ingin Anda ikuti menggunakan -D atau --domains = [daftar domain] (dalam bentuk daftar yang dipisahkan koma)
sumber