Yang saya maksud adalah mengunduh setiap halaman yang tersedia dari Wayback Machine selama periode waktu dan interval yang ditentukan. Misalnya, saya ingin mengunduh setiap halaman yang tersedia dari setiap hari dari nature.com dari Januari 2012 hingga Desember 2012. (Tidak persis yang ingin saya lakukan, tetapi cukup dekat - dan memberikan contoh yang baik.)
sayangnya, wget tidak akan berfungsi karena sifat unik cara kerja mesin Wayback.
Alat-alat seperti pengunduh Wayback Machine hanya mengunduh versi halaman terbaru, tampaknya.
Berinteraksi dengan IA API sepertinya merupakan rute yang layak, tetapi saya tidak yakin bagaimana cara kerjanya.
Terima kasih!
Jawaban:
Cara
wayback
URL diformat adalah sebagai berikut:Ini
BASEURL
biasanyahttp://web.archive.org/web
(saya katakan biasanya karena saya tidak yakin apakah itu satu-satunya BASEURL)TARGET
cukup jelas (dalam kasus Andahttp://nature.com
, atau URL serupa)TIMESTAMP
adalahYYYYmmddHHMMss
saat penangkapan dilakukan (dalam UTC):YYYY
: Tahunmm
: Bulan (2 digit - 01 hingga 12)dd
: Hari dalam sebulan (2 digit - 01 hingga 31)HH
: Jam (2 digit - 00 hingga 23)MM
: Menit (2 digit - 00 hingga 59)ss
: Kedua (2 digit - 00 hingga 59)Jika Anda meminta waktu penangkapan yang tidak ada, mesin wayback mengalihkan ke tangkapan terdekat untuk URL itu, apakah di masa depan atau di masa lalu.
Anda dapat menggunakan fitur itu untuk mendapatkan setiap URL harian menggunakan
curl -I
(HTTPHEAD
) untuk mendapatkan set URL:Ini memberi Anda URL yang paling dekat dengan siang hari pada setiap hari 2012. Cukup hapus duplikatnya, dan, dan unduh halaman-halamannya.
Catatan: Skrip di atas mungkin dapat sangat ditingkatkan untuk melompat maju jika
REDIRECT
itu untuk URL lebih dari 1 hari di masa depan, tetapi kemudian membutuhkan mendekonstruksi URL yang dikembalikan, dan menyesuaikanSTART
dengan nilai tanggal yang benar.sumber
wget
atau yang lainpage-getter
dengan opsi yang benar (perhatikan-I
opsi untukcurl
).Ada permata ruby di Github: https://github.com/hartator/wayback-machine-downloader
sumber