Saya menggunakan wget untuk mengunduh semua gambar dari sebuah situs web dan berfungsi dengan baik tetapi ia menyimpan hierarki asli dari situs tersebut dengan semua subfolder dan sehingga gambarnya tersebar. Apakah ada cara sehingga hanya akan mengunduh semua gambar ke dalam satu folder? Sintaks yang saya gunakan saat ini adalah:
wget -r -A jpeg,jpg,bmp,gif,png http://www.somedomain.com
-A
opsi terima , lihat dokumentasi Wget tentang jenis file . Juga, jika Anda mengunduh ke direktori saat ini, Anda dapat menghapus-P
opsi awalan direktori . Jika Anda mengunduh satu jenis file, seperti hanya jpg, gunakan sesuatu sepertiwget -r -A.jpg http://www.domain.com
. Lihatlah contoh lanjutan yang disediakan oleh dokumentasi Wget.-nd
ke atas membuatnya bekerja. Anda juga dapat menentukan beberapa -A flags seperti-A "*foo*" -A "*bar*"
--level=inf
atau--level=9999999999
karenawget
mungkin akan menyabot pekerjaan karena tingkat kedalaman rekursi maksimum default5
.-nd
: tidak ada direktori (simpan semua file ke direktori saat ini;-P directory
ubah direktori target)-r -l 2
: level rekursif 2-A
: ekstensi yang diterima-H
: span hosts (wget tidak mengunduh file dari berbagai domain atau subdomain secara default)-p
: syarat halaman (termasuk sumber daya seperti gambar pada setiap halaman)-e robots=off
: jalankan perintahrobotos=off
seolah-olah itu bagian dari.wgetrc
file. Ini mematikan pengecualian robot yang berarti Anda mengabaikan robots.txt dan tag meta robot (Anda harus tahu implikasi yang menyertainya, berhati-hatilah).Contoh: Dapatkan semua
.jpg
file dari daftar direktori yang patut dicontoh:sumber
Saya menulis sebuah shellscript yang memecahkan masalah ini untuk beberapa situs web: https://github.com/eduardschaeli/wget-image-scraper
(Mengikis gambar dari daftar url dengan wget)
sumber
Coba yang ini:
dan tunggu sampai menghapus semua informasi tambahan
sumber
wget -nd -r -P /Users/duraiamuthan/Downloads/images/ -A jpeg,jpg,bmp,gif,png http://www.forbes.com/profile/mark-zuckerberg/
Menurut halaman manual, flag -P adalah:
Ini berarti bahwa itu hanya menentukan tujuan tetapi di mana harus menyimpan pohon direktori. Itu tidak meratakan pohon menjadi hanya satu direktori . Seperti disebutkan sebelumnya, flag -nd benar-benar melakukan itu.
@Jon di masa depan akan bermanfaat untuk menggambarkan apa yang dilakukan flag sehingga kami memahami cara kerja sesuatu.
sumber
Solusi yang diusulkan sempurna untuk mengunduh gambar dan jika cukup bagi Anda untuk menyimpan semua file dalam direktori yang Anda gunakan. Tetapi jika Anda ingin menyimpan semua gambar dalam direktori yang ditentukan tanpa mereproduksi seluruh hierarki pohon situs, coba tambahkan "cut-dirs" ke baris yang diusulkan oleh Jon.
dalam hal ini cut-dirs akan mencegah wget dari membuat subdirektori hingga tingkat ke-3 dalam hierarki situs web, menyimpan semua file dalam direktori yang Anda tentukan. Anda dapat menambahkan lebih banyak 'cut-dirs' dengan angka yang lebih tinggi jika Anda berurusan dengan situs dengan struktur yang dalam.
sumber
utilitas wget mengambil file dari World Wide Web (WWW) menggunakan protokol yang banyak digunakan seperti HTTP, HTTPS dan FTP. Utilitas Wget adalah paket yang tersedia secara bebas dan lisensi berada di bawah Lisensi GNU GPL. Utilitas ini dapat menginstal sistem Operasi mirip Unix termasuk Windows dan MAC OS. Ini adalah alat baris perintah non-interaktif. Fitur utama dari Wget adalah ketahanannya. Ini dirancang sedemikian rupa sehingga berfungsi dalam koneksi jaringan yang lambat atau tidak stabil. Wget secara otomatis mulai mengunduh di mana ia ditinggalkan jika ada masalah jaringan. Juga mengunduh file secara rekursif. Itu akan terus mencoba sampai file telah diambil sepenuhnya.
Instal wget di mesin linux sudo apt-get install wget
Buat folder tempat Anda ingin mengunduh file. sudo mkdir myimages cd myimages
Klik kanan pada halaman web dan misalnya jika Anda ingin lokasi gambar klik kanan pada gambar dan salin lokasi gambar. Jika ada beberapa gambar, ikuti di bawah ini:
Jika ada 20 gambar untuk diunduh dari web sekaligus, kisaran mulai dari 0 hingga 19.
wget http://joindiaspora.com/img {0..19} .jpg
sumber