Saya ingin mendapatkan semua file untuk situs web yang diberikan di archive.org. Alasannya mungkin termasuk:
- penulis asli tidak mengarsipkan situs web sendiri dan sekarang offline, saya ingin membuat cache publik dari itu
- Saya adalah penulis asli dari beberapa situs web dan kehilangan beberapa konten. Saya ingin memulihkannya
- ...
Bagaimana aku melakukan itu ?
Mempertimbangkan bahwa mesin wayback archive.org sangat istimewa: tautan laman web tidak menunjuk ke arsip itu sendiri, tetapi ke laman web yang mungkin tidak lagi ada di sana. JavaScript digunakan sisi klien untuk memperbarui tautan, tetapi trik seperti wget rekursif tidak akan berfungsi.
gem install wayback_machine_downloader
. Jalankan wayback_machine_downloader dengan url dasar situs web yang ingin Anda ambil sebagai parameter:wayback_machine_downloader http://example.com
Informasi lebih lanjut: github.com/hartator/wayback_machine_downloaderJawaban:
Saya mencoba berbagai cara untuk mengunduh suatu situs dan akhirnya saya menemukan pengunduh mesin wayback - yang disebutkan oleh Hartator sebelumnya (tolong, semua kredit diberikan kepadanya), tetapi saya tidak memperhatikan komentarnya terhadap pertanyaan tersebut. Untuk menghemat waktu Anda, saya memutuskan untuk menambahkan permata wayback_machine_downloader sebagai jawaban terpisah di sini.
Situs di http://www.archiveteam.org/index.php?title=Restoring mendaftar cara-cara ini untuk mengunduh dari archive.org:
sumber
Ini dapat dilakukan menggunakan skrip bash shell yang dikombinasikan dengan
wget
.Idenya adalah untuk menggunakan beberapa fitur URL dari mesin wayback:
http://web.archive.org/web/*/http://domain/*
akan mendaftar semua halaman yang disimpanhttp://domain/
secara rekursif. Ini dapat digunakan untuk membuat indeks halaman untuk diunduh dan menghindari heuristik untuk mendeteksi tautan di halaman web. Untuk setiap tautan, ada juga tanggal versi pertama dan versi terakhir.http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
akan mencantumkan semua versihttp://domain/page
untuk tahun YYYY. Di dalam halaman itu, tautan spesifik ke versi dapat ditemukan (dengan stempel waktu yang tepat)http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
akan mengembalikan halaman yang tidak dimodifikasihttp://domain/page
pada stempel waktu yang diberikan. Perhatikan token id_ .Ini adalah dasar-dasar untuk membuat skrip untuk mengunduh semuanya dari domain yang diberikan.
sumber
http://web.archive.org/web/19981202230410/http://www.google.com/
) dan tambahkanid_
ke akhir "angka tanggal". Maka, Anda akan mendapatkan sesuatu sepertihttp://web.archive.org/web/19981202230410id_/http://www.google.com/
.Ada alat yang dirancang khusus untuk tujuan ini, Warrick: https://code.google.com/p/warrick/
Ini didasarkan pada protokol Memento.
sumber
Anda dapat melakukannya dengan mudah
wget
.Di mana
ROOT
URL akar situs web danSTART
merupakan URL awal. Sebagai contoh:Perhatikan bahwa Anda harus memotong bingkai pembungkus arsip Web untuk
START
URL. Di sebagian besar browser, Anda dapat mengklik kanan pada halaman dan memilih "Show Only This Frame".sumber