Bagaimana cara mengarsipkan seluruh situs web?

Jawaban:

12

Karena Wayback Machine tidak menyediakan fitur seperti itu, saya menemukan beberapa solusi.

  1. Pertama, mirror situs web menggunakan wget, mis

    wget -m https://example.com/
    
  2. Kemudian gunakan curluntuk mengarsipkan semua halaman satu per satu yang telah Anda unduh.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    Catatan: Anda dapat mengubah .htmlke .php, atau memasukkan jenis file tertentu.

kenorb
sumber
Jika situs tidak menggunakan ekstensi (seperti html atau php - seperti SE sedang disiapkan), bagaimana Anda menyesuaikan perintah Anda?
db
2
Anda dapat mengubah -name "*.html"ke -type funtuk memasukkan semua file.
kenorb
Bagaimana cara kerjanya dengan parameter kueri?
Mithical
6

Jika Anda ingin mengarsipkan situs web kecil, Tim Arsip menyimpan ArchiveBot , bot IRC tempat Anda dapat meminta untuk merayapi situs web. Tim Arsip kemudian akan mengirimkan halaman yang dirayapi ke Mesin Wayback Arsip Internet.

Aliran
sumber
Ini sangat membantu.
Guy
1

Mesin Wayback tidak menawarkan cara untuk mengirim seluruh situs, hanya satu halaman seperti yang sudah Anda temukan. Ini disentuh dalam beberapa poin di FAQ Wayback Machine mereka :

Bisakah saya menambahkan halaman ke Mesin Wayback?

Pada https://archive.org/web Anda dapat menggunakan fitur "Simpan Halaman Sekarang" untuk menyimpan halaman tertentu satu kali. Ini saat ini tidak menambahkan URL ke perayapan di masa depan atau menyimpan lebih dari satu halaman. Itu tidak menyimpan banyak halaman, direktori atau seluruh situs .

dan

Bagaimana saya bisa memasukkan situs saya ke dalam Wayback Machine?

Sebagian besar data web arsip kami berasal dari perayapan kami sendiri atau dari perayapan Alexa Internet. Tidak ada organisasi yang memiliki "jelajahi situs saya sekarang!" proses pengiriman . Perayapan Arsip Internet cenderung menemukan situs yang tertaut dengan baik dari situs lain. Cara terbaik untuk memastikan bahwa kami menemukan situs web Anda adalah dengan memastikannya disertakan dalam direktori online dan tautan serupa / situs terkait ke Anda.

John C
sumber
1
Ini bukan jawaban untuk pertanyaan itu. Hanya karena tidak ada cara resmi untuk melakukannya, tugas itu tidak mustahil dilakukan. Bahkan, seharusnya cukup mudah untuk menyiapkan skrip yang menambahkan tautan secara rekursif.
db
@db, jawaban kenorb tampaknya adalah apa yang Anda minta. Kebetulan, jawaban ini lebih berguna bagi saya saat ini, karena saya hanya ingin The WaybackMachine menangkap satu halaman untuk saya sekarang.
cp.engr
1

Artikel ini di archive.org juga menyarankan layanan berbayar yang akan melakukan perayapan untuk Anda sesering yang Anda inginkan:

  1. Mendaftar untuk Akun Archive-It

Archive-Ini adalah layanan berlangganan yang disediakan oleh Internet Archive yang memungkinkan Anda untuk menjalankan proyek perayapan Anda sendiri tanpa keahlian teknis apa pun. Beri tahu kami apa yang akan dirayapi dan seberapa sering merayapi itu, dan kami mengeksekusi merangkak dan menempatkan hasilnya di Mesin Wayback.

Ini mungkin bukan yang Anda cari, tetapi untuk beberapa bisnis layanan ini mungkin berguna. Saya menganggap itu membantu untuk mendanai archive.org, yang sebaliknya gratis.

Stason
sumber