Bahkan jika Anda ingin mengunduh php, tidak mungkin menggunakan wget. Kita hanya bisa mendapatkan HTML mentah menggunakan wget. Saya kira Anda tahu alasannya
Venkateshwaran Selvaraj
NB: Selalu periksa wget --spiderdulu, dan selalu tambahkan -w 1(atau lebih -w 5) agar Anda tidak membanjiri server orang lain.
+1 untuk -e robots=off! Ini akhirnya memperbaiki masalah saya! :) Terima kasih
NHDaly
12
The --random-waitpilihan adalah jenius;)
poitroae
2
@izilotti Bisakah pemilik situs mencari tahu apakah Anda MENGATAS file situs mereka dengan metode ini?
Elias7
1
@ apa sempurna itu pasti mungkin.
Jack
1
@JackNicholsonn Bagaimana pemilik situs tahu? Agen yang digunakan adalah Mozilla, yang berarti semua header akan masuk sebagai browser Mozilla, sehingga mendeteksi wget yang digunakan tidak akan mungkin? Harap perbaiki jika saya salah. terima kasih
KhoPhi
63
wget -m -p -E -k -K -np http://site/path/
halaman manual akan memberi tahu Anda apa yang dilakukan opsi-opsi itu.
wgethanya akan mengikuti tautan, jika tidak ada tautan ke file dari halaman indeks, maka wgettidak akan tahu tentang keberadaannya, dan karenanya tidak mengunduhnya. yaitu. ini membantu jika semua file ditautkan ke dalam halaman web atau dalam indeks direktori.
Terima kasih atas balasan :) Ini menyalin seluruh situs dan saya hanya perlu file (mis. Txt, pdf, gambar dll) di situs web
Aniruddhsinh
25
Saya mencoba mengunduh file zip yang ditautkan dari halaman tema Omeka - tugas yang hampir serupa. Ini bekerja untuk saya:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A: hanya menerima file zip
-r: berulang
-l 1: satu tingkat dalam (yaitu, hanya file yang terhubung langsung dari halaman ini)
-nd: jangan membuat struktur direktori, cukup unduh semua file ke direktori ini.
Semua jawaban dengan -k, -K, -Edll pilihan mungkin belum benar-benar memahami pertanyaan, seperti yang seperti untuk menulis ulang halaman HTML untuk membuat struktur lokal, mengubah nama .phpfile dan sebagainya. Tidak berhubungan.
Untuk benar-benar mendapatkan semua file kecuali.html dll:
wget --spider
dulu, dan selalu tambahkan-w 1
(atau lebih-w 5
) agar Anda tidak membanjiri server orang lain.Jawaban:
Untuk memfilter untuk ekstensi file tertentu:
Atau, jika Anda lebih suka nama opsi panjang:
Ini akan mencerminkan situs, tetapi file tanpa
jpg
ataupdf
ekstensi akan dihapus secara otomatis.sumber
--accept
ini case-sensitive, jadi Anda harus melakukannya--accept pdf,jpg,PDF,JPG
wget
tetapi Anda harus menentukan--progress
jenisnya, misalnya--progress=dot
--ignore-case
flag untuk membuat--accept
case case-sensitive.Ini mengunduh seluruh situs web untuk saya:
sumber
-e robots=off
! Ini akhirnya memperbaiki masalah saya! :) Terima kasih--random-wait
pilihan adalah jenius;)halaman manual akan memberi tahu Anda apa yang dilakukan opsi-opsi itu.
wget
hanya akan mengikuti tautan, jika tidak ada tautan ke file dari halaman indeks, makawget
tidak akan tahu tentang keberadaannya, dan karenanya tidak mengunduhnya. yaitu. ini membantu jika semua file ditautkan ke dalam halaman web atau dalam indeks direktori.sumber
Saya mencoba mengunduh file zip yang ditautkan dari halaman tema Omeka - tugas yang hampir serupa. Ini bekerja untuk saya:
-A
: hanya menerima file zip-r
: berulang-l 1
: satu tingkat dalam (yaitu, hanya file yang terhubung langsung dari halaman ini)-nd
: jangan membuat struktur direktori, cukup unduh semua file ke direktori ini.Semua jawaban dengan
-k
,-K
,-E
dll pilihan mungkin belum benar-benar memahami pertanyaan, seperti yang seperti untuk menulis ulang halaman HTML untuk membuat struktur lokal, mengubah nama.php
file dan sebagainya. Tidak berhubungan.Untuk benar-benar mendapatkan semua file kecuali
.html
dll:sumber
-A
case-sensitive, saya pikir, jadi Anda harus melakukannya-A zip,ZIP
Anda dapat mencoba:
Anda juga dapat menambahkan:
untuk menerima ekstensi spesifik, atau hanya menolak ekstensi spesifik:
atau untuk mengecualikan area spesifik:
Jika file diabaikan untuk robot (mis. Mesin pencari), Anda harus menambahkan juga:
-e robots=off
sumber
Coba ini. Itu selalu berhasil untuk saya
sumber
ini akan mengunduh semua jenis file secara lokal dan mengarahkannya dari file html dan itu akan mengabaikan file robot
sumber
Pada sistem Windows untuk mendapatkan wget, Anda dapat melakukannya
sumber