Bot dan laba-laba mana yang harus saya blokir di robots.txt?

14

Untuk:

  1. Tingkatkan keamanan situs web saya
  2. Kurangi persyaratan bandwidth
  3. Cegah pengambilan alamat email
DaveC
sumber

Jawaban:

17

Tidak ada bot yang memanen email atau menguji kerentanan situs Anda akan menghormati robots.txt Anda. Faktanya, bot jahat ini melihat robots.txt untuk memetakan situs Anda dengan lebih baik. Jika ada poin Anda memiliki Disallow:ini akan digunakan untuk menyerang situs Anda dengan lebih baik. Seorang peretas yang secara manual melihat situs Anda harus menghabiskan waktu ekstra untuk memeriksa semua file / direktori yang Anda coba batalkan.

Benteng
sumber
3
Poin yang menarik. Saya bertanya-tanya apakah masuk akal untuk menambahkan halaman palsu ke daftar Larang yang tujuan utamanya adalah menangkap bot seperti itu dalam tindakan sehingga mereka dapat diblokir secara otomatis.
Steven Sudit
5
@ Seven Sudit itu bukan ide yang buruk. Ini akan disebut pot madu.
Benteng 9-10
Ya, itu benar sekali, walaupun saya lebih memikirkan trik standar dari kompiler direktori (buku telepon, dll) untuk menambahkan sejumlah kecil entri palsu untuk mendeteksi pencurian grosir.
Steven Sudit
Jika Anda juga menggunakan honeypot itu sebagai tarpit, itu juga akan mengganggu pengindeks ilegal. Ini sebenarnya cukup umum dilakukan untuk spammer - tinggalkan alamat email honeypot yang dapat diindeks yang mengarah ke server email tarpit.
Mark Henderson
@Farseeker Saya tidak melihat masalah dengan menghukum orang-orang yang melanggar aturan. Meskipun menipu spammer dengan data buruk adalah twist yang menarik.
Benteng
4

robots.txt tidak akan meningkatkan keamanan situs web Anda atau mencegah pengambilan alamat email. robots.txt adalah panduan bagi mesin pencari untuk melewati bagian situs web Anda. Ini tidak akan diindeks dan harus digunakan untuk setiap bagian yang Anda tidak ingin muncul di mesin pencari publik.

Namun, ini sama sekali tidak akan mencegah bot lain mengunduh seluruh situs Anda untuk meningkatkan keamanan atau mencegah pengambilan email. Untuk meningkatkan keamanan, Anda perlu menambahkan otentikasi dan hanya mengizinkan pengguna yang diautentikasi di luar bagian yang diamankan. Untuk mencegah pengambilan alamat email jangan masukkan email dalam teks biasa (atau teks yang mudah diuraikan) pada situs web.

Sam
sumber
1

robots.txt tidak akan membantu Anda dengan keamanan. Bot apa pun yang ingin melakukan sesuatu yang teduh akan mengabaikannya.

sinar
sumber
0

File robots.txt hanya berfungsi sebagai permintaan agar bot dan spider meninggalkan konten tertentu saja; itu sebenarnya tidak dapat mencegah akses mereka. Bot "baik" akan menghormatinya, tetapi bot "buruk" (mungkin yang ingin Anda blokir) akan mengabaikannya dan tetap melanjutkan.

derekerdmann
sumber
-1

Alih-alih robots.txt, mungkin Anda perlu menggunakan kode CAPTCHA.

Steven Sudit
sumber
Kode CAPTCHA tidak ada hubungannya dengan perayap web (yang merupakan alamat robots.txt).
user48838
Itu adalah kesalahan pemilihan yang salah. Intinya adalah bahwa perayap dapat mengabaikan robots.txt, tetapi kode CAPTCHA setidaknya akan memperlambatnya, jika tidak langsung memblokirnya. Terima kasih telah salah.
Steven Sudit