wget klon tidak tepat

1

Saya mencoba mendapatkan replika persis satu halaman. Saya menggunakan:

wget -E -H -k -K -p http://example.com

Semuanya berfungsi dengan baik kecuali:

  1. Jika dalam gaya saya ada impor file CSS lain itu tidak bisa diunduh.
  2. Jika JavaScript menempatkan gambar di mana saja maka mereka tidak diunduh (letakkan kelas pada tag jangkar dan kemudian di file script.js saya minta jQuery meletakkan gambar di sana.

Adakah ide untuk membuat keduanya bekerja?

Taji
sumber
Terlihat di sini . Wget tidak dapat mengartikan JavaScript atau css. Anda membutuhkan browser yang mampu JavaScript. Jika ini adalah satu situs, Anda dapat mencoba mengekstrak tautan dengan regexp.
Banthar
@ Banthar ... Saya ingin mengunduh file yang ada di javascript atau di css. Apakah Anda memiliki tempat yang dapat Anda kirimkan kepada saya untuk referensi tentang cara mengetahui ekspresi reguler itu?

Jawaban:

0

Saya menggunakan pavuk untuk mirroring dan berfungsi dengan baik - mirror yang dihasilkan dapat dilihat di browser dan juga sebagian mem-parsing javascript (tapi tentu saja tidak sepenuhnya):

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' -norobots -dont_limit_inlines -dont_leave_site http://www.example.com/ >OUT 2>ERR &

Anda juga dapat menggunakan -skip_url_rpattern untuk melompati beberapa skrip dinamis yang tidak berguna agar tidak dicerminkan, misalnya:

-skip_url_rpattern 'index.php\?Addcomm=' -skip_url_rpattern 'index.php\?cal=1'
Tomas
sumber