Saya ingin mengunduh salinan lokal halaman web dan mendapatkan semua css, gambar, javascript, dll.
Dalam diskusi sebelumnya (misalnya di sini dan di sini , keduanya lebih dari dua tahun), dua saran umumnya diajukan: wget -p
dan httrack . Namun, kedua saran ini gagal. Saya akan sangat menghargai bantuan dengan menggunakan salah satu alat ini untuk menyelesaikan tugas; alternatif juga indah.
Pilihan 1: wget -p
wget -p
berhasil mengunduh semua prasyarat halaman web (css, gambar, js). Namun, ketika saya memuat salinan lokal di browser web, halaman tidak dapat memuat prasyarat karena jalur ke prasyarat tersebut belum dimodifikasi dari versi di web.
Sebagai contoh:
- Dalam html halaman,
<link rel="stylesheet href="https://stackoverflow.com/stylesheets/foo.css" />
perlu diperbaiki untuk menunjuk ke jalur relatif barufoo.css
- Dalam file css, hal yang
background-image: url(/images/bar.png)
sama perlu disesuaikan.
Apakah ada cara untuk memodifikasi wget -p
sehingga jalurnya benar?
Opsi 2: httrack
httrack
sepertinya alat yang bagus untuk mem-mirroring seluruh situs web, tetapi tidak jelas bagi saya bagaimana menggunakannya untuk membuat salinan lokal dari satu halaman. Ada banyak diskusi di forum httrack tentang topik ini (misalnya di sini ) tetapi tampaknya tidak ada yang punya solusi anti peluru.
Opsi 3: alat lain?
Beberapa orang menyarankan alat berbayar, tetapi saya tidak percaya tidak ada solusi gratis di luar sana.
sumber
wget -E -H -k -K -p http://example.com
- hanya ini yang berhasil untuk saya. Kredit: superuser.com/a/136335/94039wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com
Jawaban:
wget mampu melakukan apa yang Anda minta. Coba saja yang berikut ini:
Ini
-p
akan memberi Anda semua elemen yang diperlukan untuk melihat situs dengan benar (css, gambar, dll). Kami-k
akan mengubah semua tautan (untuk memasukkan tautan untuk CSS & gambar) untuk memungkinkan Anda melihat halaman secara offline saat ditampilkan secara online.Dari dokumen Wget:
sumber
index.html#link-to-element-on-same-page
berhenti berfungsi.-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4'
-H, --span-hosts