Apakah agen pengguna di peramban biasa mana pun mengandung 'bot' atau 'merangkak'?

11

Apakah agen pengguna di peramban biasa mana pun mengandung 'bot' atau 'merangkak'?

Saya memeriksa agen pengguna di situs saya untuk melihat apakah itu berasal dari bot atau tidak. Jika ya, saya dapat melakukan sedikit optimasi karena tidak masuk. (Saya tidak mengubah konten sama sekali)

Setelah menambahkan cek untuk 30-40 + bot, saya bosan menambahkannya. Jadi saya bertanya-tanya apakah memeriksa apakah itu hanya berisi 'bot' atau 'merangkak'. Saya tahu bahwa tidak akan mendapatkan semua bot, tetapi itu akan mendapatkan banyak dari mereka. Tetapi jika itu dapat menyebabkan kesalahan positif, maka itu benar-benar akan mengacaukan kemampuan untuk menambahkan ke troli, memesan, dan masuk.

Echo mengatakan Reinstate Monica
sumber

Jawaban:

13

Menurut daftar di http://www.useragentstring.com/pages/useragentstring.php?typ=Browser dengan lebih dari 9000 string agen pengguna dari berbagai browser:

  • 0 string agen pengguna dari browser berisi kata "bot"
  • 2 string agen pengguna dari browser berisi kata "crawl"
  • 0 string agen pengguna dari browser berisi kata "spider"

(2 yang berisi "crawl" adalah sebagai berikut: "Mozilla / 4.0 (kompatibel; MSIE 5.01; Windows NT 5.0; YComp 5.0.2.6; MSIECrawler)" dan "Mozilla / 4.0 (kompatibel; MSIE 5.01; Windows NT 5.0; MSIECrawler ) "Saya pikir aman untuk tidak mempertimbangkan itu.)

Menurut daftar di http://www.useragentstring.com/pages/useragentstring.php?typ=Crawler dengan 442 string agen pengguna terdaftar sebagai bot:

  • 208 string agen pengguna bot berisi kata "bot"
  • 63 string agen pengguna bot berisi kata "crawl"
  • 37 string agen pengguna bot berisi kata "spider"
  • 282 string agen pengguna bot berisi "bot", "crawl" atau "spider"

Kesimpulan saya: aman untuk memfilter bot oleh string agen pengguna dengan kata "bot", "crawl" dan "spider". Ini bukan anti peluru tapi jelas lebih baik daripada tidak sama sekali.

Catatan: Saat mencari kata kunci, saya menggunakan pencarian case-sensitive.

Jonas Äppelgran
sumber
Terima kasih banyak atas jawaban Anda. Saya telah melakukan cek hari ini, dan masih ada Browser atau Browser Ponsel user agent string berisi salah bot, crawl, spider, dan bahkan search.
Oliver
2

Solusi IMO yang lebih baik adalah mendeteksi apakah pengguna masuk. Jika tidak, tunjukkan halaman standar (ini bisa di-cache). Laba-laba web mana pun tidak akan pernah masuk, tetapi jika Anda mengoptimalkannya, mengapa tidak bagi pengguna baru ke situs Anda?

DisgruntledGoat
sumber