@tnorthcutt, saya terkejut juga. Jika saya tidak salah ingat, jawaban Wget saya dulunya adalah jawaban yang diterima, dan ini tampak seperti sesuatu yang mapan. Saya tidak mengeluh sekalipun - tiba-tiba perhatian baru memberi saya lebih dari nilai perwakilan hadiah. : P
@ Joe: Mungkin membantu jika Anda akan memberikan rincian tentang apa fitur yang hilang adalah ...
Ilari Kajaste
browse-offline.com dapat mengunduh pohon lengkap situs web sehingga Anda dapat ... menjelajahinya secara offline
Menelaos Vergis
Jawaban:
334
HTTRACK berfungsi seperti jagoan untuk menyalin konten seluruh situs. Alat ini bahkan dapat mengambil bagian yang diperlukan untuk membuat situs web dengan konten kode aktif berfungsi offline. Saya kagum pada hal-hal yang dapat ditiru secara offline.
Program ini akan melakukan semua yang Anda butuhkan.
Sudah menggunakan ini selama bertahun-tahun - sangat dianjurkan.
Umber Ferrule
4
Akankah ini menyalin kode ASP aktual yang berjalan di server?
Taptronic
8
@Optimal Solutions: Tidak, itu tidak mungkin. Anda perlu akses ke server atau kode sumber untuk itu.
Sasha Chedygov
2
Setelah mencoba kedua httrack dan wget untuk situs dengan otorisasi, saya harus bersandar pada wget. Tidak dapat membuat httrack berfungsi dalam kasus tersebut.
Leo
1
Apa opsi untuk otentikasi?
vincent mathew
272
Wget adalah alat baris perintah klasik untuk tugas semacam ini. Itu datang dengan sebagian besar sistem Unix / Linux, dan Anda bisa mendapatkannya untuk Windows juga. Pada Mac, Homebrew adalah cara termudah untuk menginstalnya ( brew install wget).
Tidak ada jawaban yang lebih baik daripada ini - wget dapat melakukan apa saja: 3
Phoshi
6
+1 untuk menyertakan --no-parent. pasti menggunakan --mirror bukan -r. dan Anda mungkin ingin menyertakan -L / - relatif untuk tidak mengikuti tautan ke server lain.
Quack quixote
2
Seperti yang saya juga minta httrack.com - akankah alat baris cmd ini mendapatkan kode ASP atau hanya mendapatkan rendering dari HTML? Aku harus mencoba ini. Ini bisa sedikit mengkhawatirkan bagi pengembang jika itu ...
Taptronic
6
@ Optimal, output HTML tentu saja - itu akan mendapatkan kode hanya jika server salah konfigurasi
Jonik
2
sayangnya itu tidak bekerja untuk saya - ada masalah dengan tautan ke file css, mereka tidak berubah menjadi relatif yaitu, Anda dapat melihat sesuatu seperti ini di file: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> yang tidak bekerja secara lokal dengan baik, kecuali ada waz untuk menipu firefox untuk berpikir bahwa dir tertentu adalah root.
gorn
148
Gunakan wget:
wget -m -p -E -k www.example.com
Opsi menjelaskan:
-m, --mirror Turns on recursion and time-stamping, sets infinite
recursion depth, and keeps FTP directory listings.
-p, --page-requisites Get all images, etc. needed to display HTML page.
-E, --adjust-extension Save HTML/CSS files with .html/.css extensions.
-k, --convert-links Make links in downloaded HTML point to local files.
+1 untuk memberikan penjelasan untuk opsi yang disarankan. (Meskipun menurut saya tidak --mirrorcukup jelas. Ini dari halaman manual: " Opsi ini mengaktifkan rekursi dan waktu, menetapkan kedalaman rekursi tak terbatas dan membuat daftar direktori FTP. Saat ini setara dengan -r -N - l inf --no-remove-listing ")
Ilari Kajaste
2
Jika Anda tidak ingin mengunduh semuanya ke folder dengan nama domain yang ingin Anda mirror, buat folder Anda sendiri dan gunakan opsi -nH (yang melewatkan bagian host).
Rafael Bugajewski
2
Bagaimana jika Auth diperlukan?
Val
4
Saya mencoba menggunakan Anda wget --mirror -p --html-extension --convert-links www.example.comdan itu hanya mengunduh indeks. Saya pikir Anda perlu -rmengunduh seluruh situs.
Eric Brotto
4
bagi mereka yang khawatir tentang membunuh situs karena lalu lintas / permintaan terlalu banyak, gunakan -w seconds(untuk menunggu beberapa detik antara permintaan, atau --limit-rate=amount, untuk menentukan bandwidth maksimum untuk digunakan saat mengunduh
Tidak lagi kompatibel dengan Firefox setelah versi 57 (Quantum).
Yay295
8
Internet Download Manager memiliki utilitas Site Grabber dengan banyak opsi - yang memungkinkan Anda mengunduh situs web apa pun yang Anda inginkan, seperti yang Anda inginkan.
Anda dapat mengatur batas ukuran halaman / file yang akan diunduh
Anda dapat mengatur jumlah situs cabang untuk dikunjungi
Anda dapat mengubah cara script / popup / duplikat berperilaku
Anda dapat menentukan domain, hanya di bawah domain itu semua halaman / file yang memenuhi pengaturan yang diperlukan akan diunduh
Tautan dapat dikonversi ke tautan offline untuk menjelajah
Anda memiliki template yang memungkinkan Anda memilih pengaturan di atas untuk Anda
Perangkat lunak ini tidak gratis - lihat apakah itu sesuai dengan kebutuhan Anda, gunakan versi evaluasi.
Saya akan membahas buffering online yang digunakan browser ...
Biasanya sebagian besar peramban menggunakan cache perambanan untuk menyimpan file yang Anda unduh dari situs web sekitar sebentar sehingga Anda tidak perlu mengunduh gambar dan konten statis berulang-ulang. Ini dapat mempercepat beberapa hal dalam beberapa keadaan. Secara umum, sebagian besar cache browser dibatasi untuk ukuran yang tetap dan ketika mencapai batas itu, itu akan menghapus file tertua di cache.
ISP cenderung memiliki server caching yang menyimpan salinan situs web yang biasa diakses seperti ESPN dan CNN. Ini menyelamatkan mereka dari masalah memukul situs-situs ini setiap kali seseorang di jaringan mereka pergi ke sana. Ini dapat menghasilkan penghematan yang signifikan dalam jumlah permintaan yang digandakan ke situs eksternal ke ISP.
Saya belum melakukan ini selama bertahun-tahun, tetapi masih ada beberapa utilitas di luar sana. Anda mungkin ingin mencoba Ular Web . Saya percaya saya menggunakannya bertahun-tahun yang lalu. Saya langsung ingat nama itu ketika saya membaca pertanyaan Anda.
Saya setuju dengan Stecy. Tolong jangan palu situs mereka. Sangat buruk.
Ini adalah peramban offline yang kuat dan gratis. Program unduhan dan tontonan situs web multi-threading berkecepatan tinggi. Dengan membuat beberapa permintaan server secara bersamaan, BackStreet Browser dapat dengan cepat mengunduh seluruh situs web atau bagian dari sebuah situs termasuk HTML, grafik, Java Applet, suara dan file yang dapat ditentukan pengguna lainnya, dan menyimpan semua file dalam hard drive Anda, baik dalam format asli mereka, atau sebagai file ZIP terkompresi dan lihat offline.
Teleport Pro adalah solusi gratis lain yang akan menyalin semua dan semua file dari apa pun target Anda (juga memiliki versi berbayar yang memungkinkan Anda untuk menarik lebih banyak halaman konten).
DownThemAll adalah add-on Firefox yang akan mengunduh semua konten (file audio atau video, misalnya) untuk halaman web tertentu dalam satu klik. Ini tidak mengunduh seluruh situs, tetapi ini mungkin semacam pertanyaan yang dicari.
Ini hanya mampu mengunduh tautan (HTML) dan media (gambar).
Ain
3
Untuk Linux dan OS X: Saya menulis ambil-situs untuk pengarsipan seluruh situs web ke file WARC . File WARC ini dapat diramban atau diekstraksi. grab-site memungkinkan Anda mengontrol URL mana yang dilewati menggunakan ekspresi reguler, dan ini dapat diubah ketika perayapan berjalan. Itu juga dilengkapi dengan seperangkat standar yang luas untuk mengabaikan URL sampah.
Ada dasbor web untuk memantau perayapan, serta opsi tambahan untuk melewatkan konten video atau tanggapan melebihi ukuran tertentu.
Sementara wget sudah disebutkan sumber daya ini dan baris perintah sangat mulus saya pikir itu layak disebutkan:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Site Explorer
Site Explorer memungkinkan Anda melihat struktur folder situs web dan dengan mudah mengunduh file atau folder yang diperlukan. HTML Spider
Anda dapat mengunduh seluruh halaman web atau bahkan seluruh situs web dengan HTML Spider. Alat ini dapat disesuaikan untuk mengunduh file dengan ekstensi yang ditentukan saja.
Saya menemukan Site Explorer berguna untuk melihat folder mana yang akan dimasukkan / dikecualikan sebelum Anda mencoba untuk mengunduh seluruh situs - terutama ketika ada seluruh forum yang bersembunyi di situs yang tidak ingin Anda unduh misalnya.
Halaman web di browser Anda hanyalah satu dari banyak situs web .
Arjan
@Arjan Saya kira itu membuat pilihan saya menjadi padat karya. Saya percaya itu lebih umum bagi orang-orang hanya ingin menyimpan satu halaman, jadi jawaban ini mungkin lebih baik bagi orang-orang yang datang ke sini untuk itu.
Jawaban:
HTTRACK berfungsi seperti jagoan untuk menyalin konten seluruh situs. Alat ini bahkan dapat mengambil bagian yang diperlukan untuk membuat situs web dengan konten kode aktif berfungsi offline. Saya kagum pada hal-hal yang dapat ditiru secara offline.
Program ini akan melakukan semua yang Anda butuhkan.
Selamat berburu!
sumber
Wget adalah alat baris perintah klasik untuk tugas semacam ini. Itu datang dengan sebagian besar sistem Unix / Linux, dan Anda bisa mendapatkannya untuk Windows juga. Pada Mac, Homebrew adalah cara termudah untuk menginstalnya (
brew install wget
).Anda akan melakukan sesuatu seperti:
Untuk detail lebih lanjut, lihat Wget Manual dan contoh - contohnya , atau misalnya:
wget: Unduh seluruh situs web dengan mudah
Wget contoh dan skrip
sumber
Gunakan wget:
Opsi menjelaskan:
sumber
--mirror
cukup jelas. Ini dari halaman manual: " Opsi ini mengaktifkan rekursi dan waktu, menetapkan kedalaman rekursi tak terbatas dan membuat daftar direktori FTP. Saat ini setara dengan -r -N - l inf --no-remove-listing ")wget --mirror -p --html-extension --convert-links www.example.com
dan itu hanya mengunduh indeks. Saya pikir Anda perlu-r
mengunduh seluruh situs.-w seconds
(untuk menunggu beberapa detik antara permintaan, atau--limit-rate=amount
, untuk menentukan bandwidth maksimum untuk digunakan saat mengunduhAnda harus melihat ScrapBook , ekstensi Firefox. Ini memiliki mode tangkap yang mendalam .
sumber
Internet Download Manager memiliki utilitas Site Grabber dengan banyak opsi - yang memungkinkan Anda mengunduh situs web apa pun yang Anda inginkan, seperti yang Anda inginkan.
Anda dapat mengatur batas ukuran halaman / file yang akan diunduh
Anda dapat mengatur jumlah situs cabang untuk dikunjungi
Anda dapat mengubah cara script / popup / duplikat berperilaku
Anda dapat menentukan domain, hanya di bawah domain itu semua halaman / file yang memenuhi pengaturan yang diperlukan akan diunduh
Tautan dapat dikonversi ke tautan offline untuk menjelajah
Anda memiliki template yang memungkinkan Anda memilih pengaturan di atas untuk Anda
Perangkat lunak ini tidak gratis - lihat apakah itu sesuai dengan kebutuhan Anda, gunakan versi evaluasi.
sumber
itsucks - itulah nama programnya!
sumber
Saya akan membahas buffering online yang digunakan browser ...
Biasanya sebagian besar peramban menggunakan cache perambanan untuk menyimpan file yang Anda unduh dari situs web sekitar sebentar sehingga Anda tidak perlu mengunduh gambar dan konten statis berulang-ulang. Ini dapat mempercepat beberapa hal dalam beberapa keadaan. Secara umum, sebagian besar cache browser dibatasi untuk ukuran yang tetap dan ketika mencapai batas itu, itu akan menghapus file tertua di cache.
ISP cenderung memiliki server caching yang menyimpan salinan situs web yang biasa diakses seperti ESPN dan CNN. Ini menyelamatkan mereka dari masalah memukul situs-situs ini setiap kali seseorang di jaringan mereka pergi ke sana. Ini dapat menghasilkan penghematan yang signifikan dalam jumlah permintaan yang digandakan ke situs eksternal ke ISP.
sumber
Saya suka Offline Explorer .
Ini adalah shareware, tetapi sangat bagus dan mudah digunakan.
sumber
WebZip adalah produk yang bagus juga.
sumber
Saya belum melakukan ini selama bertahun-tahun, tetapi masih ada beberapa utilitas di luar sana. Anda mungkin ingin mencoba Ular Web . Saya percaya saya menggunakannya bertahun-tahun yang lalu. Saya langsung ingat nama itu ketika saya membaca pertanyaan Anda.
Saya setuju dengan Stecy. Tolong jangan palu situs mereka. Sangat buruk.
sumber
Coba Browser BackStreet .
sumber
Teleport Pro adalah solusi gratis lain yang akan menyalin semua dan semua file dari apa pun target Anda (juga memiliki versi berbayar yang memungkinkan Anda untuk menarik lebih banyak halaman konten).
sumber
DownThemAll adalah add-on Firefox yang akan mengunduh semua konten (file audio atau video, misalnya) untuk halaman web tertentu dalam satu klik. Ini tidak mengunduh seluruh situs, tetapi ini mungkin semacam pertanyaan yang dicari.
sumber
Untuk Linux dan OS X: Saya menulis ambil-situs untuk pengarsipan seluruh situs web ke file WARC . File WARC ini dapat diramban atau diekstraksi. grab-site memungkinkan Anda mengontrol URL mana yang dilewati menggunakan ekspresi reguler, dan ini dapat diubah ketika perayapan berjalan. Itu juga dilengkapi dengan seperangkat standar yang luas untuk mengabaikan URL sampah.
Ada dasbor web untuk memantau perayapan, serta opsi tambahan untuk melewatkan konten video atau tanggapan melebihi ukuran tertentu.
sumber
Kekuatan wget
Sementara wget sudah disebutkan sumber daya ini dan baris perintah sangat mulus saya pikir itu layak disebutkan:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Lihat kode ini dijelaskan pada menjelaskan kulit
sumber
FreeDownloadManager.org yang terhormat memiliki fitur ini juga.
Free Download Manager memilikinya dalam dua bentuk dalam dua bentuk: Site Explorer dan Site Spider :
Saya menemukan Site Explorer berguna untuk melihat folder mana yang akan dimasukkan / dikecualikan sebelum Anda mencoba untuk mengunduh seluruh situs - terutama ketika ada seluruh forum yang bersembunyi di situs yang tidak ingin Anda unduh misalnya.
sumber
unduh HTTracker maka akan mengunduh situs web langkah-langkah yang sangat mudah diikuti.
tautan unduhan: http://www.httrack.com/page/2/
video yang membantu dapat membantu Anda: https://www.youtube.com/watch?v=7IHIGf6lcL4
sumber
Firefox dapat melakukannya secara native (setidaknya FF 42 dapat). Cukup gunakan "Simpan Halaman"
sumber
Saya percaya google chrome dapat melakukan ini pada perangkat desktop, cukup buka menu browser dan klik save webpage.
Perhatikan juga bahwa layanan seperti pocket mungkin sebenarnya tidak menyimpan situs web, dan karenanya rentan terhadap tautan busuk.
Terakhir, perhatikan bahwa menyalin konten situs web dapat melanggar hak cipta, jika berlaku.
sumber