Pertanyaan yang diberi tag web-crawlers

Program komputer yang mengakses halaman web untuk berbagai keperluan (untuk mengikis konten, untuk menyediakan mesin pencari dengan informasi tentang situs Anda, dll.)

18
Agen pengguna apa yang harus saya atur?

Ada Ask bot, yang mengatur tajuk ini: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Mempertimbangkan hal ini, saya memiliki pertanyaan-pertanyaan berikut: Jika saya menulis crawler web bernama Goofy, agen pengguna apa yang harus saya gunakan? Apa bedanya jika saya meletakkan Mozilla/2.0atau...

16
Bisakah robots.txt berada di sub-direktori server?

Saya memiliki sub-direktori yang ingin saya sembunyikan dari crawler web mesin pencari. Salah satu cara untuk melakukan ini adalah dengan menggunakan robots.txtdi direktori root server (cara standar). Namun, siapa pun yang mengetahui URL situs web dan memiliki pengetahuan web dasar dapat mengakses...

15
Cara memblokir laba-laba baidu

Sebagian besar kunjungan saya berasal dari laba-laba baidu. Saya tidak berpikir itu membantu mesin pencari sama sekali jadi saya berpikir bagaimana cara memblokirnya. Mungkinkah ini dilakukan melalui iptables? Saya menggunakan nginx sebagai server web

15
Cegah bot jahat agar tidak mengirim spam

Saya ingat sebuah situs ditutup karena penyalahgunaan dan saya ingin tahu apakah bot memiliki bagian darinya. Jika bot mem-POSTkan sesuatu ke situs saya apa sajakah cara saya dapat memeranginya? Saya sedang berpikir untuk mengatur beberapa cookie dan meminta cookie diubah melalui JavaScript +...

12
Mengapa baidu merayapi situs saya seperti orang gila

Ketika saya memeriksa log apache saya, saya dapat melihat bahwa baidu telah merayapi situs web saya 10 kali sehari selama 2 minggu terakhir. Bukannya aku terlalu peduli tapi aku sangat penasaran mengapa dia melakukan ini. Ini adalah situs web satu halaman yang sangat kecil dengan tidak banyak...

12
Status Ajax yang Dapat Dirayapi?

Saya melihat bahwa Google memiliki proposal / standar yang bagus untuk membuat aplikasi Ajax dapat dijelajahi, melalui #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Pertanyaan saya adalah: Apakah mereka saat ini menggunakan "proposal"...