Bagaimana saya bisa mengunduh seluruh situs web?

351

Bagaimana saya bisa mengunduh semua halaman dari situs web?

Platform apa pun baik-baik saja.

joe
sumber
2
Periksa serverfault.com/questions/45096/website-backup-and-download di Server Fault.
Marko Carter
@tnorthcutt, saya terkejut juga. Jika saya tidak salah ingat, jawaban Wget saya dulunya adalah jawaban yang diterima, dan ini tampak seperti sesuatu yang mapan. Saya tidak mengeluh sekalipun - tiba-tiba perhatian baru memberi saya lebih dari nilai perwakilan hadiah. : P
Jonik
Apakah Anda mencoba IDM? superuser.com/questions/14403/ ... posting saya terkubur. Apa yang Anda temukan hilang di IDM?
Lazer
5
@ Joe: Mungkin membantu jika Anda akan memberikan rincian tentang apa fitur yang hilang adalah ...
Ilari Kajaste
browse-offline.com dapat mengunduh pohon lengkap situs web sehingga Anda dapat ... menjelajahinya secara offline
Menelaos Vergis

Jawaban:

334

HTTRACK berfungsi seperti jagoan untuk menyalin konten seluruh situs. Alat ini bahkan dapat mengambil bagian yang diperlukan untuk membuat situs web dengan konten kode aktif berfungsi offline. Saya kagum pada hal-hal yang dapat ditiru secara offline.

Program ini akan melakukan semua yang Anda butuhkan.

Selamat berburu!

Axxmasterr
sumber
7
Sudah menggunakan ini selama bertahun-tahun - sangat dianjurkan.
Umber Ferrule
4
Akankah ini menyalin kode ASP aktual yang berjalan di server?
Taptronic
8
@Optimal Solutions: Tidak, itu tidak mungkin. Anda perlu akses ke server atau kode sumber untuk itu.
Sasha Chedygov
2
Setelah mencoba kedua httrack dan wget untuk situs dengan otorisasi, saya harus bersandar pada wget. Tidak dapat membuat httrack berfungsi dalam kasus tersebut.
Leo
1
Apa opsi untuk otentikasi?
vincent mathew
272

Wget adalah alat baris perintah klasik untuk tugas semacam ini. Itu datang dengan sebagian besar sistem Unix / Linux, dan Anda bisa mendapatkannya untuk Windows juga. Pada Mac, Homebrew adalah cara termudah untuk menginstalnya ( brew install wget).

Anda akan melakukan sesuatu seperti:

wget -r --no-parent http://site.com/songs/

Untuk detail lebih lanjut, lihat Wget Manual dan contoh - contohnya , atau misalnya:

Jonik
sumber
12
Tidak ada jawaban yang lebih baik daripada ini - wget dapat melakukan apa saja: 3
Phoshi
6
+1 untuk menyertakan --no-parent. pasti menggunakan --mirror bukan -r. dan Anda mungkin ingin menyertakan -L / - relatif untuk tidak mengikuti tautan ke server lain.
Quack quixote
2
Seperti yang saya juga minta httrack.com - akankah alat baris cmd ini mendapatkan kode ASP atau hanya mendapatkan rendering dari HTML? Aku harus mencoba ini. Ini bisa sedikit mengkhawatirkan bagi pengembang jika itu ...
Taptronic
6
@ Optimal, output HTML tentu saja - itu akan mendapatkan kode hanya jika server salah konfigurasi
Jonik
2
sayangnya itu tidak bekerja untuk saya - ada masalah dengan tautan ke file css, mereka tidak berubah menjadi relatif yaitu, Anda dapat melihat sesuatu seperti ini di file: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> yang tidak bekerja secara lokal dengan baik, kecuali ada waz untuk menipu firefox untuk berpikir bahwa dir tertentu adalah root.
gorn
148

Gunakan wget:

wget -m -p -E -k www.example.com

Opsi menjelaskan:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.
pengguna9437
sumber
8
+1 untuk memberikan penjelasan untuk opsi yang disarankan. (Meskipun menurut saya tidak --mirrorcukup jelas. Ini dari halaman manual: " Opsi ini mengaktifkan rekursi dan waktu, menetapkan kedalaman rekursi tak terbatas dan membuat daftar direktori FTP. Saat ini setara dengan -r -N - l inf --no-remove-listing ")
Ilari Kajaste
2
Jika Anda tidak ingin mengunduh semuanya ke folder dengan nama domain yang ingin Anda mirror, buat folder Anda sendiri dan gunakan opsi -nH (yang melewatkan bagian host).
Rafael Bugajewski
2
Bagaimana jika Auth diperlukan?
Val
4
Saya mencoba menggunakan Anda wget --mirror -p --html-extension --convert-links www.example.comdan itu hanya mengunduh indeks. Saya pikir Anda perlu -rmengunduh seluruh situs.
Eric Brotto
4
bagi mereka yang khawatir tentang membunuh situs karena lalu lintas / permintaan terlalu banyak, gunakan -w seconds(untuk menunggu beberapa detik antara permintaan, atau --limit-rate=amount, untuk menentukan bandwidth maksimum untuk digunakan saat mengunduh
vlad-ardelean
8

Anda harus melihat ScrapBook , ekstensi Firefox. Ini memiliki mode tangkap yang mendalam .

masukkan deskripsi gambar di sini

webjunkie
sumber
5
Tidak lagi kompatibel dengan Firefox setelah versi 57 (Quantum).
Yay295
8

Internet Download Manager memiliki utilitas Site Grabber dengan banyak opsi - yang memungkinkan Anda mengunduh situs web apa pun yang Anda inginkan, seperti yang Anda inginkan.

  1. Anda dapat mengatur batas ukuran halaman / file yang akan diunduh

  2. Anda dapat mengatur jumlah situs cabang untuk dikunjungi

  3. Anda dapat mengubah cara script / popup / duplikat berperilaku

  4. Anda dapat menentukan domain, hanya di bawah domain itu semua halaman / file yang memenuhi pengaturan yang diperlukan akan diunduh

  5. Tautan dapat dikonversi ke tautan offline untuk menjelajah

  6. Anda memiliki template yang memungkinkan Anda memilih pengaturan di atas untuk Anda

masukkan deskripsi gambar di sini

Perangkat lunak ini tidak gratis - lihat apakah itu sesuai dengan kebutuhan Anda, gunakan versi evaluasi.

Lazer
sumber
7

itsucks - itulah nama programnya!

kmarsh
sumber
5

Saya akan membahas buffering online yang digunakan browser ...

Biasanya sebagian besar peramban menggunakan cache perambanan untuk menyimpan file yang Anda unduh dari situs web sekitar sebentar sehingga Anda tidak perlu mengunduh gambar dan konten statis berulang-ulang. Ini dapat mempercepat beberapa hal dalam beberapa keadaan. Secara umum, sebagian besar cache browser dibatasi untuk ukuran yang tetap dan ketika mencapai batas itu, itu akan menghapus file tertua di cache.

ISP cenderung memiliki server caching yang menyimpan salinan situs web yang biasa diakses seperti ESPN dan CNN. Ini menyelamatkan mereka dari masalah memukul situs-situs ini setiap kali seseorang di jaringan mereka pergi ke sana. Ini dapat menghasilkan penghematan yang signifikan dalam jumlah permintaan yang digandakan ke situs eksternal ke ISP.

Axxmasterr
sumber
5

Saya suka Offline Explorer .
Ini adalah shareware, tetapi sangat bagus dan mudah digunakan.

Eran
sumber
4

Saya belum melakukan ini selama bertahun-tahun, tetapi masih ada beberapa utilitas di luar sana. Anda mungkin ingin mencoba Ular Web . Saya percaya saya menggunakannya bertahun-tahun yang lalu. Saya langsung ingat nama itu ketika saya membaca pertanyaan Anda.

Saya setuju dengan Stecy. Tolong jangan palu situs mereka. Sangat buruk.

Bobby Ortiz
sumber
3

Coba Browser BackStreet .

Ini adalah peramban offline yang kuat dan gratis. Program unduhan dan tontonan situs web multi-threading berkecepatan tinggi. Dengan membuat beberapa permintaan server secara bersamaan, BackStreet Browser dapat dengan cepat mengunduh seluruh situs web atau bagian dari sebuah situs termasuk HTML, grafik, Java Applet, suara dan file yang dapat ditentukan pengguna lainnya, dan menyimpan semua file dalam hard drive Anda, baik dalam format asli mereka, atau sebagai file ZIP terkompresi dan lihat offline.

masukkan deskripsi gambar di sini

joe
sumber
3

Teleport Pro adalah solusi gratis lain yang akan menyalin semua dan semua file dari apa pun target Anda (juga memiliki versi berbayar yang memungkinkan Anda untuk menarik lebih banyak halaman konten).

Pretzel
sumber
3

DownThemAll adalah add-on Firefox yang akan mengunduh semua konten (file audio atau video, misalnya) untuk halaman web tertentu dalam satu klik. Ini tidak mengunduh seluruh situs, tetapi ini mungkin semacam pertanyaan yang dicari.

Will M
sumber
Ini hanya mampu mengunduh tautan (HTML) dan media (gambar).
Ain
3

Untuk Linux dan OS X: Saya menulis ambil-situs untuk pengarsipan seluruh situs web ke file WARC . File WARC ini dapat diramban atau diekstraksi. grab-site memungkinkan Anda mengontrol URL mana yang dilewati menggunakan ekspresi reguler, dan ini dapat diubah ketika perayapan berjalan. Itu juga dilengkapi dengan seperangkat standar yang luas untuk mengabaikan URL sampah.

Ada dasbor web untuk memantau perayapan, serta opsi tambahan untuk melewatkan konten video atau tanggapan melebihi ukuran tertentu.

Ivan Kozik
sumber
0

FreeDownloadManager.org yang terhormat memiliki fitur ini juga.

Free Download Manager memilikinya dalam dua bentuk dalam dua bentuk: Site Explorer dan Site Spider :

Site Explorer
Site Explorer memungkinkan Anda melihat struktur folder situs web dan dengan mudah mengunduh file atau folder yang diperlukan.
HTML Spider
Anda dapat mengunduh seluruh halaman web atau bahkan seluruh situs web dengan HTML Spider. Alat ini dapat disesuaikan untuk mengunduh file dengan ekstensi yang ditentukan saja.

Saya menemukan Site Explorer berguna untuk melihat folder mana yang akan dimasukkan / dikecualikan sebelum Anda mencoba untuk mengunduh seluruh situs - terutama ketika ada seluruh forum yang bersembunyi di situs yang tidak ingin Anda unduh misalnya.

David d C e Freitas
sumber
-3

Firefox dapat melakukannya secara native (setidaknya FF 42 dapat). Cukup gunakan "Simpan Halaman"

masukkan deskripsi gambar di sini

pengguna1032531
sumber
6
Salah! Pertanyaannya adalah bagaimana cara menyimpan seluruh situs web. Firefox tidak dapat melakukannya.
2
Metode Anda hanya berfungsi jika itu adalah situs satu halaman, tetapi jika situs tersebut memiliki 699 halaman? Akan sangat melelahkan ...
Quidam
-4

Saya percaya google chrome dapat melakukan ini pada perangkat desktop, cukup buka menu browser dan klik save webpage.

Perhatikan juga bahwa layanan seperti pocket mungkin sebenarnya tidak menyimpan situs web, dan karenanya rentan terhadap tautan busuk.

Terakhir, perhatikan bahwa menyalin konten situs web dapat melanggar hak cipta, jika berlaku.

jiggunjer
sumber
3
Halaman web di browser Anda hanyalah satu dari banyak situs web .
Arjan
@Arjan Saya kira itu membuat pilihan saya menjadi padat karya. Saya percaya itu lebih umum bagi orang-orang hanya ingin menyimpan satu halaman, jadi jawaban ini mungkin lebih baik bagi orang-orang yang datang ke sini untuk itu.
jiggunjer