Sebagian besar kunjungan saya berasal dari laba-laba baidu. Saya tidak berpikir itu membantu mesin pencari sama sekali jadi saya berpikir bagaimana cara memblokirnya. Mungkinkah ini dilakukan melalui iptables? Saya menggunakan nginx sebagai server web saya.
traffic
nginx
web-crawlers
baidu
Zhianc
sumber
sumber
robots.txt
aturan.Jawaban:
Di add robots.txt Anda
sumber
User-agent: *
dan akses baiduspider terus dilakukan.Saya baru saja berhasil memblokir searchbot berbahasa Mandarin
Baiduspider
dari mengakses konten apa pun di situs saya. Saya membuat keputusan untuk melakukannya karena alasan berikut.Alasan memutuskan untuk memblokir
Jadi saya berharap Su 'dan yang lain yang peduli tentang Xenophobia akan memahami bahwa keputusan ini adalah tanggapan yang dingin terhadap sejumlah permintaan yang tidak sopan.
metode
Baiduspider mengakses server saya menggunakan banyak alamat IP yang berbeda tetapi alamat ini termasuk dalam rentang tertentu. Jadi file .htaccess saya sekarang berisi baris berikut:
Intinya pada dasarnya menggambarkan 4 rentang IP di mana saya tahu Baiduspider dan HANYA Baiduspider mengakses server saya. Masing-masing dari 4 rentang adalah 256 alamat berurutan (total 1024). Harap dicatat, sintaks untuk rentang IP di
deny from...
telepon bisa sangat membingungkan jika Anda belum membaca tentang rentang CIDR. Hanya mengerti bahwa0/24
rentang ukuran rata-rata mulai dari 0 jadi180.76.5.0/24
sebenarnya berarti setiap alamat IP antara180.76.5.0
dan180.76.5.255
. Ya, tidak terlalu jelas! Tetapi jika Anda ingin mengetahui mengapa atau Anda hanya menikmati perasaan bingung, kunjungi http://www.mediawiki.org/wiki/Help:Range_blocksRingkasan
Internet harus gratis, terbuka, dan adil. Tapi itu berarti organisasi seperti Baidu belajar untuk mematuhi Robots.txt dan tidak serakah dengan keteraturan dari perayapan itu. Solusi saya melibatkan mengutak-atik pengaturan yang sangat kuat sehingga sebelum Anda dipusingkan dengan file .htaccess, pastikan untuk mencadangkan dokumen asli Anda, siap untuk dikembalikan jika Anda menurunkan server Anda dalam kobaran kejayaan. Lanjutkan dengan risiko Anda sendiri.
sumber
Anda dapat menggunakan arahan berikut
robots.txt
untuk melarang perayapan situs Anda.Namun, crawler dapat memutuskan untuk mengabaikan konten robots.txt Anda. Selain itu, file dapat di-cache oleh mesin pencari dan butuh waktu sebelum perubahan tercermin.
Pendekatan yang paling efektif adalah dengan menggunakan kemampuan server Anda. Tambahkan aturan berikut ke
nginx.conf
file Anda untuk memblokir Baidu di tingkat server.Ingatlah untuk memulai kembali atau memuat ulang Nginx untuk menerapkan perubahan.
sumber
Hanya memutuskan untuk memblokir Baidu karena jumlah lalu lintas yang diberikan kepada kami terlalu kecil untuk pemindaian agresif mereka. Selain itu, mereka sekarang menjalankan agen yang menyamar sebagai peramban dan meluncurkan kode JavaScript (seperti Google Analytics) dan mengacaukan statistik kami.
Versi yang bagus sedang memperbarui robots.txt Anda dengan yang berikut ini
Tetapi mengingat apa yang ditulis orang lain di sini dan mereka menggunakan agen-pengguna yang menyembunyikan keberadaan mereka, saya akan memblokir alamat IP mereka sama sekali. Berikut ini adalah cara melakukannya di nginx
sumber
Solusi Wordpress (bukan yang terbaik tetapi membantu)
Masalah yang sama dengan laba-laba Biadu, yang agresif yang kotak saya peringkat di atas 35 di konsol saya menggunakan top. Jelas bahwa bahkan komputer cepat tidak dapat menangani permintaan luar yang berjalan dengan efektif pada 35 ....
Saya melacak jumlah IP (dari gedung Universitas itu ????) menjadi beberapa ratus, dengan terutama dua agen pengguna)
Konsekuensi langsung? Karena saya memiliki server cloud, saya harus memutakhirkan yang sama ke memori yang lebih tinggi untuk memungkinkan respons yang menurun.
Jawaban sebelumnya:
Baidu tampaknya benar-benar tidak dapat menghormati indikasi robot.txt.
Apa yang saya lakukan:
Saya menginstal plugin WP-Ban untuk Wordpress (gratis) dan melarang yang berikut:
AGEN PENGGUNA:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Lebih jauh lagi menggunakan Wp Super Cache saya alamat ulang halaman kesalahan relatif ke halaman statis, sehingga instalasi seluruh wordpress tidak / atau setidaknya hanya untuk agen pengguna yang dilarang memeriksa datatable Mysql.
(Ini adalah standar Wordpress blablabla, sehingga semua orang yang dapat menginstal Plugin Wordpress dapat melakukannya, karena tidak diperlukan akses kode atau ftp untuk prosedur ini)
Saya setuju dengan semua orang: Internet gratis, melarang siapa pun atau apa pun yang benar-benar hal terakhir yang harus dilakukan siapa pun, tetapi Baidoo hari ini biayanya USD 40 lebih / bulan, hanya untuk laba-laba webside yang ditulis dalam bahasa Portugis, dan saya ragu jika ada banyak orang Tionghoa dan pengunjung dapat membaca dan memahami bahasa ini.
sumber
Anda dapat memblokir berdasarkan alamat IP menggunakan
ngx_http_access_module
dari nginx. Untuk memblokir satu IP, Anda dapat menambahkan baris ke file conf sepertiUntuk memblokir rentang, gunakan notasi CIDR , seperti
12.34.567.1/24
untuk blok subnet 24-bit (dari 256 alamat IP) yang mencakup alamat IP 12.34.567.1. Untuk lebih jelasnya lihat, misalnya, halaman ini .sumber
Gunakan .htaccess dengan
"RewriteEngine On" memungkinkan Anda bahwa baris-baris berikut diuraikan dengan benar. HTTP_USER_AGENT adalah garis tempat laba-laba mengidentifikasi diri mereka. Kondisi ini benar jika baris berisi "MJ12bot" atau "Baidu". NC berarti "tidak peka huruf besar-kecil" dan Anda dapat menghubungkan kondisi dengan OR. Baris terakhir tidak boleh mengandung "OR" atau aturan tidak berfungsi.
Baidu sangat jahat karena mencoba membaca entri Wordpress ("fckeditor", "wp-content") yang sama sekali tidak punya alasan. MJ12bot juga salah satu makhluk buruk.
Aturan penulisan ulang berarti memblokir laba-laba dengan 403 Forbidden ([F]) untuk mengakses semua file (. * Adalah ekspresi reguler untuk file apa pun) dan menghentikan evaluasi lebih lanjut ([L]) dari htaccess.
sumber
F
bendera menyiratkanL
, sehingga Anda tidak perlu secara eksplisit menyertakanL
bendera di sini. Juga, pola suka^.*Baidu
sama sajaBaidu
.