Kontrol atas Internet Archive selain hanya "Disallow /"?

13

Adakah mekanisme untuk mengendalikan apa yang arsip Internet Archive di situs? Saya tahu untuk melarang semua halaman yang bisa saya tambahkan :

User-agent: ia_archiver
Disallow: /
  1. Dapatkah saya memberi tahu bot bahwa saya ingin mereka merayapi situs saya sebulan sekali, atau setahun sekali?

  2. Saya memiliki situs / halaman yang tidak / tidak diarsipkan dengan benar karena aset tidak diambil. Apakah ada cara untuk memberi tahu bot Arsip Internet aset apa yang diperlukan jika situs itu akan direbut?

artlung
sumber
Saya juga sangat tertarik dengan jawaban untuk ini. +1 :)
Pos Tim

Jawaban:

8

Catatan : Jawaban ini semakin usang.

Kontributor terbesar untuk koleksi web Internet Archive adalah Alexa Internet. Materi yang dirayapi Alexa untuk keperluannya telah disumbangkan ke IA beberapa bulan kemudian. Menambahkan aturan pelarangan yang disebutkan dalam pertanyaan tidak memengaruhi perayapan tersebut, tetapi Wayback akan 'secara surut' menghormati mereka (menolak akses, materi masih akan ada di arsip - Anda harus mengecualikan robot Alexa jika Anda benar-benar ingin menyimpan materi Anda di luar Arsip Internet).

Mungkin ada cara untuk mempengaruhi perayapan Alexa, tapi saya tidak terbiasa dengan itu.

Sejak IA mengembangkan perayapnya sendiri (Heritrix), mereka telah mulai melakukan perayapan sendiri, tetapi perayapan tersebut cenderung menjadi perayapan yang ditargetkan (mereka melakukan perayapan pemilihan untuk Library of Congress dan telah melakukan perayapan nasional untuk Perancis dan Australia dll.). Mereka tidak terlibat dalam jenis perayapan skala dunia berkelanjutan yang dilakukan Google dan Alexa. Perayapan terbesar IA adalah proyek khusus untuk merayapi 2 miliar halaman.

Karena perayapan ini dioperasikan pada jadwal yang berasal dari faktor spesifik proyek, Anda tidak dapat memengaruhi seberapa sering mereka mengunjungi situs Anda atau jika mereka mengunjungi situs Anda.

Satu-satunya cara untuk secara langsung mempengaruhi bagaimana dan kapan IA menjelajah situs Anda adalah dengan menggunakan layanan Archive-It mereka. Layanan itu memungkinkan Anda menentukan penjelajahan khusus. Data yang dihasilkan akan (akhirnya) dimasukkan ke dalam koleksi web IA. Namun ini adalah layanan berlangganan berbayar .

Keris
sumber
3
Komentar Anda tentang IA yang melakukan perayapan sendiri adalah benar pada tahun 2011, dan tidak lagi benar pada tahun 2016: kami melakukan banyak perayapan sendiri, sekarang.
Greg Lindahl
@GregLindahl Anda dipersilakan untuk menambahkan jawaban yang diperbarui untuk pertanyaan ini
Stephen Ostermiller
2

Sebagian besar mesin pencari mendukung arahan "Crawl-delay", tetapi saya tidak tahu apakah IA melakukannya. Anda bisa mencobanya:

User-agent: ia_archiver
Crawl-delay: 3600

Ini akan membatasi penundaan antara permintaan hingga 3600 detik (yaitu 1 jam), atau ~ 700 permintaan per bulan.

Saya tidak berpikir # 2 itu mungkin - bot IA mengambil aset sebagaimana dan ketika cocok. Mungkin memiliki batas ukuran file untuk menghindari penggunaan penyimpanan yang terlalu banyak.

DisgruntledGoat
sumber
@ Kris: Mengatur penundaan perayapan harus melakukannya dengan proxy. Jika Anda memiliki 30 halaman dan Anda memberi tahu perayap untuk hanya menekan sekali sehari, setiap halaman cenderung disegarkan kira-kira setiap 30 hari. (Jelas bukan jaminan.)
DisgruntledGoat
Secara teori, ya, jika Anda melakukan perayapan arsip Anda tidak akan pernah mematuhi aturan seperti itu. Merayapi situs dengan dokumen per hari berarti Anda tidak dapat memperoleh tangkapan yang baik dari situs pada saat tertentu. Jika atribut ini dihormati, maka akan ada batas atas 1-5 menit dalam setiap penelusuran arsip .
Kris
Ah, saya mengerti maksud Anda.
DisgruntledGoat
Saya baru saja melihat Heritrix 3 yang baru-baru ini dirilis dan saya melihat bahwa mereka telah menambahkan penanganan direktif crawl-delay, tetapi defaultnya adalah hanya menghormati maksimum 300 detik (5 menit).
Kris