Bagaimana saya bisa membuat wget hanya mengunduh halaman bukan gambar css dll?

10

Saya ingin mengunduh seluruh situs web menggunakan wget, tetapi saya tidak ingin mengunduh gambar, video, dll.

Saya mencoba

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

tetapi ketika saya melakukannya tidak mengunduh file .php, cukup unduh file .html statis.

Apakah ada solusi untuk masalah ini dengan wget?

pengguna1126446
sumber

Jawaban:

6

Anda secara eksplisit memberi tahu wget untuk hanya menerima file yang memiliki .htmlsufiks.

Dengan asumsi bahwa halaman php miliki .php, Anda dapat melakukan ini:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Perhatikan bahwa ini akan mengunduh html yang diberikan, bukan sumber php. Jika halaman cukup dinamis, Anda mungkin tidak mendapatkan hasil yang Anda harapkan.

Namun, saya menyarankan bahwa alat lain seperti httrack dapat melakukan pekerjaan yang lebih baik - itu tergantung pada apa yang perlu Anda lakukan.

James Polley
sumber
3

-A mengambil daftar, jadi -A.html, .php harus sesuai dengan tagihan. Anda juga harus melihat ke -R (ini juga membutuhkan daftar tolak).

Bentuk Kehidupan Alien
sumber