Bagaimana situs mendeteksi bot di belakang proxy atau jaringan perusahaan

Bagaimana situs besar (misalnya Wikipedia) menangani bot yang berada di belakang topeng IP lainnya? Misalnya, di universitas saya, semua orang mencari Wikipedia, memberikannya muatan yang signifikan. Tapi, sejauh yang saya tahu, Wikipedia hanya bisa mengetahui IP dari router universitas, jadi jika saya membuat bot "unleashed" (dengan hanya sedikit penundaan antar permintaan), dapatkah Wikipedia melarang bot saya tanpa melarang seluruh organisasi? dapatkah suatu situs melarang IP di belakang jaringan organisasi?

web-crawler pengguna4052054
sumber

Hari Wikipedia melarang Qatar .

isanae

@isanae Terkait: superuser.com/q/1013630/326546

kasperd

Lebih baik buat bot Anda tidak bisa dibedakan dari pengguna yang sah

Hagen von Eitzen

Jawaban:

Tidak, mereka akan melarang IP publik dan semua orang yang memiliki NAT untuk IP itu juga akan diblokir.

Meskipun setidaknya setumpuk jika kami pikir kami akan melarang sebuah perguruan tinggi atau sesuatu seperti itu, kami akan menjangkau kontak pelecehan mereka untuk membuat mereka melacak pelaku dan menghentikan masalah.

Zypher
sumber

Apa yang dikatakan Zypher. Berbicara sebagai seseorang yang biasa melacak pengaduan yang dikirim ke [email protected], kami biasanya cukup bersemangat untuk menemukan orang yang bertanggung jawab sehingga mereka akan membuka blokir IP publik. (Mahasiswa senang berbagi musik peer to peer. RIAA senang menghubungi abuse@wh whatever.edu tentang hal itu.)

Katherine Villyard

... kecuali ada sesuatu yang dapat diidentifikasi secara unik tentang bot Anda, seperti meneruskan token akses atau id browser unik.

Pengguna sederhana

Ini tidak menjawab pertanyaan judul sebenarnya tentang bagaimana situs ini mendeteksi bot. Bahkan, tampaknya jika Anda memperlambat bot Anda secara memadai (yang tidak akan banyak), itu sebenarnya tidak dapat dibedakan dari penggunaan yang valid oleh sejumlah besar mahasiswa.

Wildcard

Untuk menyampaikan komentar @ KatherineVillyard. Secara formal mengawasi jaringan suatu lembaga jika tidak ada yang menghubungi kami sebelum pemblokiran, dan sumber daya yang kami blokir digunakan secara teratur, kami akan menjangkau mereka untuk memperbaiki masalah tersebut. Biasanya mereka bersedia untuk membuka blokir kita jika kita akan menyelesaikan ini dari akhir kita. Ini berarti mencari sumber pelecehan. Menjadi Wikipedia, bahkan jika mereka tidak menjangkau institusi Anda, institusi Anda mungkin akan melihatnya setelah mereka menyadari bahwa mereka telah masuk daftar hitam. Larangan yang tampaknya tidak berbahaya itu bisa dengan cepat berubah menjadi pengusiran.

Bacon Brad

@Wildcard FWIW kebanyakan tempat tidak akan memberi tahu Anda bagaimana mereka mendeteksi bot hanya karena itu hanya akan membuat penulis bot yang mereka tangkap untuk mengubah keadaan. Yang mengatakan, ada banyak sinyal lain selain kecepatan permintaan untuk mendeteksi bot. Tetapi sebagian besar tempat tidak akan terlalu peduli jika Anda bermain bagus, tidak melakukan sesuatu yang menyebalkan atau melelahkan sumber daya. Itu tidak layak untuk mengejar setiap bot kecil di luar sana.

Zypher

Situs tidak dapat langsung melarang IP yang berada di belakang NAT. Ini bisa bertindak pada IP yang melewati proxy HTTP yang tidak dianonimkan - ketika proxy semacam itu meneruskan permintaan, ia biasanya menambahkan alamat itu ke header X-Forwarded-For, jadi jika akses dari jaringan pribadi Anda benar-benar harus melalui seperti itu proksi IP internal dapat terpapar; namun sebagian besar situs (termasuk wikipedia) tidak akan mempercayai informasi di tajuk itu karena mudah untuk menipu untuk melibatkan IP yang tidak bersalah atau menghindari larangan.

Namun ada beberapa teknik lain yang mencoba mengidentifikasi pengguna secara terpisah dari alamat IP. Anda dapat menginterogasi peramban web untuk banyak informasi tentang hal itu dan sistemnya sedang berjalan, seperti agen-pengguna, resolusi layar, daftar plugin, dll. - lihat https://github.com/carlo/jquery- browser-sidik jariuntuk contoh dalam praktik ini. Anda dapat menggunakan sidik jari seperti itu untuk mengontrol akses, meskipun tergantung pada desain situs Anda mungkin dapat berinteraksi dengannya tanpa terlibat dengan proses sidik jari, dan bahkan jika Anda tidak dapat bot dapat memberikan data palsu dan acak untuk menghindari memiliki sidik jari yang konsisten jika Anda mengetahui perlindungan semacam ini sudah ada. Metode kontrol ini juga berisiko palsu positif terutama ketika datang ke perangkat seluler di mana mungkin akan ada sejumlah besar klien yang menjalankan klien stok identik pada perangkat keras stok identik (kebanyakan orang pada model spesifik iPhone menjalankan versi spesifik iOS , misalnya, mungkin akan mendapatkan sidik jari yang sama).

Pengasuh
sumber

Bukan tidak mungkin sama sekali; banyak universitas, dan setidaknya satu negara, koneksi web proxy dan tambahkan X-Forwarded-For.

Michael Hampton

Menarik. Secara pribadi saya akan terkejut jika sebuah perusahaan mengkonfigurasi proxy web mereka untuk melakukan itu karena memperlihatkan beberapa informasi (yang memang sepele) tentang jaringan internal Anda, tetapi saya kira itu tergantung pada org.

Carcer

@ Carcer, tidak harus alamat IP internal yang sebenarnya, hanya sesuatu yang konsisten untuk setiap pengguna proxy.

Ian Ringrose

Umumnya alamat IP tidak cukup informasi untuk larangan yang benar. Jadi, jaringan yang canggih bekerja sangat baik di tumpukan jaringan.

Serangan Denial of Service (DoS) (yang Anda khawatirkan buat) biasanya ditangani dengan kecepatan yang membatasi pengaturan koneksi TCP awal. Ini berarti pengguna sah yang bersedia menunggu akan melewati sedangkan yang hanya mencoba untuk mengkonsumsi sumber daya server melambat ke titik itu menjadi tidak berbahaya. Di sinilah DoS kemudian berkembang menjadi serangan DoS Terdistribusi (DDoS).

Setelah Anda memiliki koneksi ke server, Anda dapat membuat sebanyak mungkin permintaan, administrasi server web dapat mengonfigurasi berapa banyak permintaan untuk ditangani.

Server web mungkin dapat menangani kapasitas lebih dari gateway jaringan lokal Anda, itu mungkin faktor pembatas dalam kasus penggunaan Anda. Saya berani bertaruh admin jaringan Universitas Anda akan mengetuk pintu Anda sebelum Wikipedia melakukannya.

Sangat penting untuk menjadi warga negara Internet yang baik sehingga saya akan menambahkan kode pembatas nilai ke bot.

Juga harus ditunjukkan bahwa Wikipedia menawarkan kesedihan data sehingga menjaring situs tidak benar-benar diperlukan.

Phil Hannent
sumber