Saya ingin menggunakan Wget untuk menyimpan halaman web tunggal (tidak secara rekursif, tidak seluruh situs) untuk referensi. Sama seperti Firefox "Web Page, complete".
Masalah pertama saya adalah: Saya tidak bisa membuat Wget untuk menyimpan gambar latar belakang yang ditentukan dalam CSS. Bahkan jika itu memang menyimpan file gambar latar belakang saya tidak berpikir --convert-links akan mengkonversi URL gambar latar belakang dalam file CSS untuk menunjuk ke gambar latar belakang yang disimpan secara lokal. Firefox memiliki masalah yang sama.
Masalah kedua saya adalah: Jika ada gambar pada halaman yang ingin saya simpan yang di-host di server lain (seperti iklan) ini tidak akan dimasukkan. --span-hosts tampaknya tidak menyelesaikan masalah dengan baris di bawah ini.
Saya menggunakan:
wget --no-parent --timestamping --convert-links --page-requisites --no-directories --no-host-directories -erobots=off http://domain.tld/webpage.html
Jawaban:
Dari halaman manual Wget :
Juga dalam kasus
robots.txt
ini adalah melarang Anda menambahkan-e robots=off
sumber
wget --adjust-extension --span-hosts --convert-links --backup-converted --page-requisites [url]
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows
[url]The
wget
perintah menawarkan opsi--mirror
, yang melakukan hal yang sama seperti:Anda juga dapat melempar
-x
untuk membuat hierarki direktori seluruh situs, termasuk nama host.Anda mungkin tidak dapat menemukan ini jika Anda tidak menggunakan versi terbaru
wget
.sumber
Kedengarannya seperti
wget
dan Firefox tidak mem-parsing CSS untuk tautan untuk memasukkan file-file itu dalam unduhan. Anda dapat mengatasi keterbatasan itu dengan memberikan apa yang Anda bisa, dan membuat skrip ekstraksi tautan dari CSS atau Javascript apa pun dalam file yang diunduh untuk menghasilkan daftar file yang Anda lewatkan. Kemudian proses keduawget
pada daftar tautan itu dapat mengambil apa pun yang terlewat (gunakan-i
bendera untuk menentukan URL daftar file).Jika Anda suka Perl, ada modul CSS :: Parser di CPAN yang dapat memberi Anda cara mudah untuk mengekstrak tautan dengan cara ini.
Perhatikan bahwa
wget
hanya mem-parsing markup html tertentu (href
/src
) dan css uris (url()
) untuk menentukan syarat halaman yang harus diterima. Anda dapat mencoba menggunakan add-on Firefox seperti DOM Inspector atau Firebug untuk mencari tahu apakah gambar pihak ketiga yang tidak Anda dapatkan ditambahkan melalui Javascript - jika demikian, Anda harus menggunakan skrip atau plugin Firefox untuk mendapatkannya terlalu.sumber
Saya membuat Webtografi untuk tujuan serupa: https://webjay.github.io/webtography/
Ini menggunakan Wget dan mendorong situs ke repositori di akun GitHub Anda.
Saya menggunakan argumen ini:
https://github.com/webjay/webtography/blob/master/lib/wget.js#L15-L26
sumber