Adakah mekanisme untuk mengendalikan apa yang arsip Internet Archive di situs? Saya tahu untuk melarang semua halaman yang bisa saya tambahkan :
User-agent: ia_archiver
Disallow: /
Dapatkah saya memberi tahu bot bahwa saya ingin mereka merayapi situs saya sebulan sekali, atau setahun sekali?
Saya memiliki situs / halaman yang tidak / tidak diarsipkan dengan benar karena aset tidak diambil. Apakah ada cara untuk memberi tahu bot Arsip Internet aset apa yang diperlukan jika situs itu akan direbut?
cache
internet-archive
artlung
sumber
sumber
Jawaban:
Catatan : Jawaban ini semakin usang.
Kontributor terbesar untuk koleksi web Internet Archive adalah Alexa Internet. Materi yang dirayapi Alexa untuk keperluannya telah disumbangkan ke IA beberapa bulan kemudian. Menambahkan aturan pelarangan yang disebutkan dalam pertanyaan tidak memengaruhi perayapan tersebut, tetapi Wayback akan 'secara surut' menghormati mereka (menolak akses, materi masih akan ada di arsip - Anda harus mengecualikan robot Alexa jika Anda benar-benar ingin menyimpan materi Anda di luar Arsip Internet).
Mungkin ada cara untuk mempengaruhi perayapan Alexa, tapi saya tidak terbiasa dengan itu.
Sejak IA mengembangkan perayapnya sendiri (Heritrix), mereka telah mulai melakukan perayapan sendiri, tetapi perayapan tersebut cenderung menjadi perayapan yang ditargetkan (mereka melakukan perayapan pemilihan untuk Library of Congress dan telah melakukan perayapan nasional untuk Perancis dan Australia dll.). Mereka tidak terlibat dalam jenis perayapan skala dunia berkelanjutan yang dilakukan Google dan Alexa. Perayapan terbesar IA adalah proyek khusus untuk merayapi 2 miliar halaman.
Karena perayapan ini dioperasikan pada jadwal yang berasal dari faktor spesifik proyek, Anda tidak dapat memengaruhi seberapa sering mereka mengunjungi situs Anda atau jika mereka mengunjungi situs Anda.
Satu-satunya cara untuk secara langsung mempengaruhi bagaimana dan kapan IA menjelajah situs Anda adalah dengan menggunakan layanan Archive-It mereka. Layanan itu memungkinkan Anda menentukan penjelajahan khusus. Data yang dihasilkan akan (akhirnya) dimasukkan ke dalam koleksi web IA. Namun ini adalah layanan berlangganan berbayar .
sumber
Sebagian besar mesin pencari mendukung arahan "Crawl-delay", tetapi saya tidak tahu apakah IA melakukannya. Anda bisa mencobanya:
Ini akan membatasi penundaan antara permintaan hingga 3600 detik (yaitu 1 jam), atau ~ 700 permintaan per bulan.
Saya tidak berpikir # 2 itu mungkin - bot IA mengambil aset sebagaimana dan ketika cocok. Mungkin memiliki batas ukuran file untuk menghindari penggunaan penyimpanan yang terlalu banyak.
sumber