Setelah menulis sejumlah bot, dan melihat sejumlah besar bot acak yang merayapi sebuah situs, saya bertanya-tanya sebagai seorang webmaster, bot apa yang benar-benar layak dibiarkan masuk ke sebuah situs?
Pikiran pertama saya adalah membiarkan bot ke situs berpotensi membawa lalu lintas nyata ke sana. Apakah ada alasan untuk mengizinkan bot yang tidak diketahui mengirimkan lalu lintas nyata ke situs, dan bagaimana Anda melihat bot "baik" ini?
seo
web-crawlers
robots.txt
googlebot
bingbot
kesalahan besar
sumber
sumber
Jawaban:
Dalam ranah bot normal, semuanya tergantung pada apa yang Anda hargai dan hanya Anda yang bisa memutuskan itu. Tentu saja ada Google, Bing / MSN / Yahoo !, Baidu, dan Yandex. Ini adalah mesin pencari utama. Ada juga berbagai situs SEO dan backlink. Benar atau salah, saya mengizinkan beberapa yang besar memiliki akses ke situs saya, tetapi umumnya, itu adalah situs yang tidak berguna. Saya memblokir archive.org tidak hanya di robots.txt, tetapi dengan nama domain dan alamat IP. Ini karena mereka mengabaikan waktu robots.txt! Ini adalah sesuatu yang perlu Anda rasakan. Jangan tertipu oleh nama agen. Seringkali mereka ditempa oleh orang jahat. Sekarang, saya mendapat ribuan permintaan halaman dari sumber yang mengklaim sebagai Baidu, tetapi tidak. Kenali laba-laba ini dengan nama domain dan blok alamat IP dan pelajari cara menanganinya di tingkat itu. Yang baik mematuhi robots.txt.
Tapi saya harus memperingatkan Anda, ada TON bot siluman, bot nakal, pencakar, dan sebagainya sehingga Anda ingin sering mencari analisis log dan memblokir. 5uck5 ini! Tapi ini harus dilakukan. Ancaman terbesar dari mereka hari ini adalah tautan berkualitas rendah ke situs Anda. Kode keamanan anti-bot saya yang diperbarui yang saya terapkan tahun ini telah menjatuhkan 7700 tautan berkualitas rendah secara otomatis. Tentu saja, kode saya masih perlu bekerja, tetapi Anda mengerti maksudnya. Bot buruk masih mencuri potensi situs.
Tidak akan lama sebelum Anda terbiasa.
sumber
Saya punya masalah dengan bot Baidu memperlambat server saya sementara mesin pencari mengirim hampir tidak ada lalu lintas. Bot ini tidak menghormati file robots.txt sehingga untuk memblokir bot Baidu cukup tempel berikut ini ke file htccess Anda.
Saya juga punya masalah dengan laba-laba Bing / Microsoft yang merangkak terlalu cepat, tidak seperti Baidu mereka begitu menghargai file robots.txt;
sumber