Saya menggunakan file robots.txt berikut untuk sebuah situs: Target adalah untuk memungkinkan googlebot dan bingbot untuk mengakses situs kecuali halaman /bedven/bedrijf/*
dan memblokir semua bot lain dari merayapi situs.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Apakah aturan terakhir User-agent: * Disallow: /
melarang semua bot merayapi setiap halaman di situs?
web-crawlers
robots.txt
Konsole
sumber
sumber
robots.txt
lagianrobots.txt
, atau setidaknyaDisallow: /
aturan. Jika situs web pribadi Anda dipalu ke tanah karena seorang programmer bot tidak pernah mempertimbangkan bahwa server mungkin Raspberry Pi di ujung yang salah dari koneksi 256 kbit, pengecualian selimut seperti ini bermanfaat.Jawaban:
Catatan terakhir (dimulai oleh
User-agent: *
) akan diikuti oleh semua bot sopan yang tidak mengidentifikasi diri mereka sebagai "googlebot", "google", "bingbot" atau "bing".Dan ya, itu berarti mereka tidak diizinkan merangkak apa pun.
Anda mungkin ingin menghilangkan
*
dalam/bedven/bedrijf/*
.Dalam spesifikasi robots.txt asli,
*
tidak memiliki arti khusus, itu hanya karakter seperti yang lainnya. Jadi itu hanya akan melarang perayapan halaman yang benar-benar memiliki karakter*
di URL mereka.Meskipun Google tidak mengikuti spesifikasi robots.txt dalam hal itu, karena mereka digunakan
*
sebagai wildcard untuk "urutan karakter apa pun", itu tidak diperlukan untuk mereka dalam kasus ini:/bedven/bedrijf/*
dan/bedven/bedrijf/
akan berarti persis sama: blok semua URL yang jalurnya dimulai dengan/bedven/bedrijf/
.Dan akhirnya, Anda dapat mengurangi robots.txt menjadi dua catatan, karena catatan dapat memiliki beberapa
User-agent
baris :sumber
Bot, terutama yang buruk, dapat mengabaikan file robots.txt. Jadi, apa pun yang tertulis di sana, beberapa bot dapat merayapi situs Anda.
sumber