Saya ingin menjelajah tautan di bawah www.website.com/XYZ dan hanya mengunduh tautan yang di bawah www.website.com/ABC.
Saya menggunakan perintah wget berikut untuk mendapatkan file yang saya inginkan:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Ini berfungsi dengan baik ketika saya menggunakan wget 1.13.4. Tetapi masalahnya adalah saya harus menggunakan perintah ini di server yang memiliki wget 1.11 dan ketika saya menggunakan perintah yang sama, akhirnya mengunduh domain tambahan seperti:
www.website.de
www.website.it
...
Bagaimana saya bisa menghindari masalah ini? Saya mencoba menggunakan
--exclude domains=www.website.de,www.website.it
namun itu terus mengunduh domain tersebut.
Perhatikan juga bahwa saya tidak dapat menggunakan --no-parent
karena file yang saya inginkan ada di tingkat atas (Saya ingin file di bawah situs web.com/ABC dengan merayapi tautan di bawah situs web.com/XYZ).
Ada petunjuk?
sumber
wget
seharusnya tidak melewati host secara default, dan Anda memerlukan-H
/--span-hosts
opsi untuk melewati host ketika melakukan wget rekursif. "www.website.com" adalah host yang sama sekali berbeda dari "www.website.de".-H
selalu diminta untuk muncul kembali di luar host asli. Apakah-D www.website.com
membantu?Jawaban:
Ini salah:
Cara yang benar adalah:
Dari halaman manual wget:
sumber
Anda dapat mencoba
--max-redirect 0
atau menggunakannya--domains example.com
sebagai kebalikan dari--exclude-domains example.com
.Lihat:
sumber