Bagaimana saya bisa mengunduh seluruh situs web?

81

Saya ingin mengunduh seluruh situs web (dengan sub-situs). Apakah ada alat untuk itu?

UAdapter
sumber
1
apa sebenarnya yang ingin Anda capai? judul dan konten pertanyaan Anda tidak terkait, dan konten tidak spesifik.
RolandiXor
NB, hanya tautan berikut (mis. Menggunakan --convert-linksdi wget) tidak akan mengungkapkan situs yang hanya diungkapkan dengan mengirimkan formulir, di antaranya.
Steven

Jawaban:

140

Coba contoh 10 dari sini :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : aktifkan opsi yang cocok untuk mirroring.

  • -p : unduh semua file yang diperlukan untuk menampilkan halaman HTML yang diberikan dengan benar.

  • --convert-links : setelah unduhan, konversikan tautan dalam dokumen untuk tampilan lokal.

  • -P ./LOCAL-DIR : menyimpan semua file dan direktori ke direktori yang ditentukan.
shellholic
sumber
adakah cara untuk mengunduh hanya halaman tertentu (misalnya, beberapa bagian dari artikel yang tersebar di beberapa dokumen html)?
don.joey
@Private Ya, meskipun mungkin lebih mudah menggunakan python atau sesuatu untuk mendapatkan halaman (tergantung pada tata letak / url). Jika url halaman berbeda dengan jumlah yang terus bertambah atau Anda memiliki daftar halaman, Anda mungkin bisa menggunakan wget dalam skrip bash.
Vreality
2
Anda mungkin mempertimbangkan untuk menggunakan --wait=secondsargumen jika Anda ingin lebih ramah ke situs; itu akan menunggu jumlah detik yang ditentukan antara pengambilan.
belacqua
cara di atas berfungsi, tetapi untuk joomla, url berparameter membuat file yang tidak ditautkan secara lokal. Yang bekerja untuk saya adalah wget -m -k -K -E your.domain.com dari sini: vaasa.hacklab.fi/2013/11/28/…
M.Hefny
1
Juga --no-parentuntuk "tidak pernah naik ke direktori induk" yang diambil dari sini .
Daniel
38

HTTrack untuk menyalin situs web Linux dalam mode offline

httrack adalah alat yang Anda cari.

HTTrack memungkinkan Anda untuk mengunduh situs World Wide Web dari Internet ke direktori lokal, membangun semua direktori secara rekursif, mendapatkan HTML, gambar, dan file lain dari server ke komputer Anda. HTTrack mengatur struktur tautan relatif situs asli.

Sid
sumber
7

Dengan wgetAnda dapat mengunduh seluruh situs web, Anda harus menggunakan -rsakelar untuk unduhan berulang . Sebagai contoh,

wget -r http://www.google.com
Arthur Knopper
sumber
6

WEBHTTRACK WEBSITE COPIER adalah alat yang berguna untuk mengunduh seluruh situs web ke hard disk Anda untuk menjelajah secara offline. Luncurkan pusat perangkat lunak ubuntu dan ketik "webhttrack website copier" tanpa tanda kutip di kotak pencarian. pilih dan unduh dari pusat perangkat lunak ke sistem Anda. mulai webHTTrack baik dari laucher atau menu mulai, dari sana Anda dapat mulai menikmati alat hebat ini untuk mengunduh situs Anda

keriting
sumber
3

Saya tidak tahu tentang sub domain, yaitu sub-situs, tetapi wget dapat digunakan untuk mengambil situs yang lengkap. Lihatlah pertanyaan pengguna super ini . Dikatakan bahwa Anda dapat menggunakan -D domain1.com,domain2.comuntuk mengunduh berbagai domain dalam satu skrip. Saya pikir Anda dapat menggunakan opsi itu untuk mengunduh sub-domain yaitu-D site1.somesite.com,site2.somesite.com

binW
sumber
1

Saya menggunakan Burp - alat laba-laba jauh lebih cerdas daripada wget, dan dapat dikonfigurasi untuk menghindari bagian jika perlu. Burp Suite itu sendiri adalah seperangkat alat yang kuat untuk membantu dalam pengujian, tetapi alat laba-laba sangat efektif.

Rory Alsop
sumber
1
Bukankah bersendawa hanya Windows? Perjanjian lisensi sumber tertutup untuk Burp juga cukup berat. Belum lagi banderol harga $ 299,00:
Kat Amsterdam
dari lisensi: PERINGATAN: BURP SUITE, EDISI GRATIS DIRANCANG UNTUK UJI CACAT KEAMANAN DAN DAPAT MELAKUKAN KERUSAKAN SISTEM TARGET KARENA ALAM FUNGSIONALITASNYA. PENGUJIAN UNTUK CACAT KEAMANAN SANGAT TERLIBAT BERINTERAKSI DENGAN TARGET DALAM CARA NON-STANDAR YANG DAPAT MENYEBABKAN MASALAH DALAM BEBERAPA TARGET YANG Rentan. ANDA HARUS MENGAMBIL PERAWATAN KARENA SAAT MENGGUNAKAN PERANGKAT LUNAK, ANDA HARUS BACA SEMUA DOKUMENTASI SEBELUM PENGGUNAAN, ANDA HARUS MEMBUAT SISTEM SASARAN SEBELUM MENGGUNAKAN DAN ANDA TIDAK HARUS MENGGUNAKAN PERANGKAT LUNAK PADA SISTEM PRODUKSI ATAU SISTEM LAINNYA UNTUK YANG TIDAK DITANGGUHKAN OLEH ANDA. .
Kat Amsterdam
Untuk apa fungsinya, label harganya sangat murah - saya akan merekomendasikan membelinya untuk berbagai pengujian keamanan. Dan sangat mudah untuk mengonfigurasinya untuk menguji persis seperti yang Anda inginkan - lebih aman daripada AppScan dalam beberapa kasus :-)
Rory Alsop
1
@KatAmsterdam Mengenai pertanyaan kompatibilitas: Menurut Wikipedia , Burp Suite adalah aplikasi Java, jadi itu harus berjalan baik di Ubuntu.
Eliah Kagan
Kat - ini berjalan dengan baik di berbagai rasa Linux. Peringatan pada lisensi sama dengan alat apa pun yang dapat Anda gunakan untuk penilaian keamanan.
Rory Alsop
1

Anda dapat mengunduh Perintah Seluruh Situs Web:

wget -r -l 0 website

Contoh:

wget -r -l 0 http://google.com
Harish Kotikalapudi
sumber
Bisakah Anda jelaskan cara kerja perintah ini? Apa itu?
Kaz Wolfe
0

Jika kecepatan menjadi masalah (dan kesejahteraan server tidak), Anda dapat mencoba puf , yang berfungsi seperti wget tetapi dapat mengunduh beberapa halaman secara paralel. Namun, itu bukan produk jadi, tidak dipelihara dan mengerikan tidak berdokumen. Namun, untuk mengunduh situs web dengan banyak dan banyak file bertubuh kecil, ini mungkin pilihan yang baik.

loevborg
sumber