Saya memiliki situs web yang kebanyakan saya tidak ingin diindeks oleh mesin pencari, tetapi saya ingin mempertahankannya untuk selamanya di archive.org. Jadi saya robots.txt
mulai dengan ini:
User-agent: *
Disallow: /
Hari ini, menurut archive.org saya harus menambahkan yang berikut di saya robots.txt
untuk memungkinkan bot mereka:
User-agent: ia_archiver
Disallow:
Tapi, saya sudah melakukan apa yang mereka indikasikan beberapa tahun yang lalu, setidaknya, saya menambahkan yang berikut:
User-agent: archive.org_bot
Disallow:
Lalu ada sumber lain yang mengklaim bahwa Anda harus menambahkan kedua di atas Disallow
, ditambah yang lain:
User-agent: ia_archiver-web.archive.org
Disallow:
Perhatikan bahwa Anda harus meletakkannya Disallow: /
jika Anda tidak ingin bot mengarsipkan situs Anda.
Apakah ada perubahan dengan bot IA? Jika ya, kapan?
Apa cara yang disarankan? Haruskah saya mengizinkan ketiganya untuk saat ini dan berharap IA tidak akan mengubah nama bot mereka lagi di masa depan?
Jawaban:
Pembaruan : Seperti yang dicatat oleh @KevinFegan dalam komentar, dokumentasi mereka berubah. Bagian di bawah ini menjelaskan bagaimana Internet Archive menanganinya di masa lalu (setidaknya di 2014).
FAQ mereka Bagaimana saya bisa membuat halaman situs saya dikeluarkan dari Wayback Machine? mengacu pada Menghapus Dokumen Dari Mesin Wayback , yang mendokumentasikan bot mereka dipanggil
ia_archiver
.Jadi, catatan ini harus memungkinkan bot mereka merayapi seluruh situs Anda:
sumber
*
group hanya cocok bila tidak ada kelompok lain yang cocok.Sebenarnya ada 2 masalah di sini:
robots.txt
di situs Anda Larang (blokir) jalan mundur dari perayapan situs Anda.Untuk poin # 1:
Seperti yang dikatakan orang lain, entri yang benar untuk robots.txt adalah:
Ingatlah bahwa mungkin butuh waktu cukup lama (mungkin cukup lama), bagi Wayback untuk melihat perubahan apa pun yang telah Anda buat pada robots.txt.
Untuk memeriksa apakah
robots.txt
di situs Anda akan memungkinkan Wayback untuk merayapi situs Anda:"Browse History"
tombol."Save Page"
tombol.Pada titik ini, Anda harus melihat 1 dari 3 hal:
Sekarang, untuk poin # 2:
Akankah Wayback merayapi situs Anda?
Hanya karena Anda Izinkan Wayback untuk merayapi situs Anda, tidak berarti mereka akan merayapi situs Anda.
Menurut FAQ Wayback (penekanan ditambahkan):
Pembaruan: 09-Mei-2017
Yang lain telah meninggalkan komentar / jawaban yang menunjukkan bahwa Archive.org tidak lagi menghormati robots.txt. Mungkin ini adalah "pekerjaan dalam proses" dan pada akhirnya akan terjadi, tetapi saya belum melihat perilaku baru ini.
Kasus untuk ini tampaknya berasal dari artikel ini: Robots.txt: ROBOTS.TXT ADALAH CATATAN SUICIDE oleh
archiveteam.org
. Walaupun halaman itu memiliki sedikit jika ada yang baik untuk dikatakan tentang "Robots.txt", itu tidak menyebutkan di mana pun bahwa Archive.org tidak akan lagi menghormati robots.txt.Juga dari catatan: artikel itu dihosting di
archiveteam.org
, yang pasti tidakarchive.org
, dan saya tidak yakin ada hubungan (resmi) antaraarchive.org
danarchiveteam.org
.Bahkan, halaman tentang Tim Arsip ini , tampaknya menyatakan perbedaan antara dan (penekanan ditambahkan):
archive.org
archive.org
archiveteam.org
Bagaimanapun, saya memutuskan untuk mencoba ini, dan saya menemukan bahwa, setidaknya pada saat ini, Archive.org MASIH menghormati robots.txt:
archive.org
menunjukkan bahwa "Halaman tidak dapat ditampilkan karena robots.txt."Jadi, saat ini, saya tetap tidak yakin, tetapi saya ingin dibuktikan salah ... akan lebih bagus jika itu benar.
sumber
Perbarui 2017
Bot arsip sekarang tidak peduli dengan robots.txt Anda.
Jika Anda benar-benar ingin memblokirnya, kirimi mereka email sesuai dengan halaman ini , atau cekal alamat IP mereka melalui htaccess.
sumber
Robots.txt ia_archiver Melarang entri (dengan "/") harus sesuai dengan kebutuhan yang Anda jelaskan (untuk "melestarikan keabadian", tetapi belum secara publik).
Saya baru saja melakukan tes cepat, mengomentari entri ia_archiver Disallow untuk situs yang memilikinya setidaknya selama 10 tahun terakhir. Kemudian saya melihat situs itu di archive.org/web, dan muncul situs yang telah dikumpulkan pada tahun 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 dan 2017! Ini berarti bahwa Archive.org tidak pernah secara ketat menghormati apa yang orang lain anggap sebagai pernyataan "jangan diarsipkan" selama tahun-tahun ini, itu hanya tidak mengekspos salinan yang diarsipkan.
sumber
sumber
Saya mencoba
robots.txt
metode ini dan tidak berhasil. Jadi saya menghubungi situs webnya di email mereka [email protected]:Dan saya mendapat jawaban berikut:
Saya buat
wayback-removal-request.html
dengan konten berikut (bahkan HTML yang tidak valid):Mengunggahnya dan membalas email mereka dengan URL dari mana halaman web tersedia dan kemudian saya menerima balasan berikut:
Ketika saya memeriksa beberapa jam kemudian situs web saya dihapus.
sumber