Saya telah menggunakan Wget, dan saya mengalami masalah. Saya punya situs, yang memiliki beberapa folder dan subfolder di dalam situs. Saya perlu mengunduh semua konten di dalam setiap folder dan subfolder. Saya telah mencoba beberapa metode menggunakan Wget, dan ketika saya memeriksa penyelesaiannya, yang bisa saya lihat di folder adalah file "indeks". Saya dapat mengklik pada file indeks, dan itu akan membawa saya ke file, tetapi saya perlu file yang sebenarnya.
apakah ada yang punya perintah untuk Wget yang saya abaikan, atau ada program lain yang bisa saya gunakan untuk mendapatkan semua informasi ini?
contoh situs:
www.mysite.com/Gambar/ dalam Pictures DIr, ada beberapa folder .....
www.mysite.com/Pictures/Accounting/
www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg
Saya membutuhkan semua file, folder, dll .....
wget
, khususnya untuk menggunakannya secara rekursif ?Jawaban:
Saya ingin menganggap Anda belum mencoba ini:
atau untuk mengambil konten, tanpa mengunduh file "index.html":
Referensi: Menggunakan wget untuk secara rekursif mengambil direktori dengan file sewenang-wenang di dalamnya
sumber
saya menggunakan
wget -rkpN -e robots=off http://www.example.com/
-r
artinya secara rekursif-k
berarti mengonversi tautan. Jadi tautan pada halaman web akan menjadi localhost alih-alih example.com/bla-p
berarti dapatkan semua sumber daya halaman web sehingga dapatkan gambar dan file javascript untuk membuat situs web berfungsi dengan baik.-N
adalah untuk mengambil cap waktu jadi jika file lokal lebih baru dari file di situs web jarak jauh lewati saja.-e
adalah opsi bendera yang harus ada di sana agarrobots=off
dapat berfungsi.robots=off
berarti mengabaikan file robot.Saya juga sudah
-c
dalam perintah ini jadi jika koneksi mereka putus jika akan melanjutkan dari mana ia tinggalkan ketika saya menjalankan kembali perintah. Saya pikir-N
akan cocok dengan-c
sumber
-e
akan menjalankan perintah seolah-olah itu adalah bagian dari .wgetrc saya menambahkannya di sana karenarobots=off
tampaknya tidak berfungsi tanpa itu di sana.wget -m -A * -pk -e robot = tidak aktif www.mysite.com/ ini akan mengunduh semua jenis file secara lokal dan mengarahkannya dari file html
dan itu akan mengabaikan file robot
sumber