Bagaimana Anda menginstruksikan wget untuk merayapi situs web secara rekursif dan hanya mengunduh jenis gambar tertentu?
Saya mencoba menggunakan ini untuk menjelajah situs dan hanya mengunduh gambar Jpeg:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Namun, meskipun page1.html berisi ratusan tautan ke subhalaman, yang memiliki tautan langsung ke gambar, wget melaporkan hal-hal seperti "Menghapus subhalaman13.html karena harus ditolak", dan tidak pernah mengunduh gambar apa pun, karena tidak ada yang langsung terhubung dengan gambar dari halaman awal.
Saya berasumsi ini karena --accept saya digunakan untuk mengarahkan perayapan dan memfilter konten untuk diunduh, sedangkan saya ingin itu digunakan hanya untuk mengarahkan pengunduhan konten. Bagaimana saya bisa membuat wget merangkak semua tautan, tetapi hanya mengunduh file dengan ekstensi tertentu seperti * .jpeg?
EDIT: Juga, beberapa halaman bersifat dinamis, dan dihasilkan melalui skrip CGI (mis. Img.cgi? Fo9s0f989wefw90e). Bahkan jika saya menambahkan cgi ke daftar penerimaan saya (misalnya --accept = jpg, jpeg, html, cgi) ini masih selalu ditolak. Apakah ada jalan keluarnya?
Bagaimana Anda berharap wget mengetahui isi dari subpage13.html (dan jpg-nya yang terhubung) jika tidak diizinkan untuk mengunduhnya. Saya sarankan Anda mengizinkan html, dapatkan yang Anda inginkan, lalu hapus yang tidak Anda inginkan.
Saya tidak begitu yakin tentang mengapa cgi Anda ditolak ... apakah ada kesalahan output oleh wget? Mungkin membuat wget verbose (
-v
) dan lihat. Mungkin lebih baik sebagai pertanyaan terpisah.Yang mengatakan, jika Anda tidak peduli tentang bandwidth dan unduh lot kemudian hapus apa yang tidak Anda inginkan setelahnya, itu tidak masalah.
Lihat juga
--html-extension
Dari halaman manual:
--restrict-file-names=unix
mungkin juga berguna karena url cgi ...sumber
--no-parent
tetapi saya akan berhenti di situ.Anda juga dapat menggunakan MetaProducts Offline Explorer tanpa pemrograman
sumber
Coba tambahkan
--page-requisites
opsisumber