lalu lintas tidak sah dari agen pengguna Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)

31

Ini adalah peristiwa yang berubah dengan cepat yang belum memiliki jawaban.

Harap jangan memposting temuan atau asumsi Anda sebagai jawaban; cadangan kolom jawaban ketika Anda benar-benar memiliki jawaban.

Jika Anda memiliki sesuatu yang baru untuk ditambahkan, harap sunting langsung ke pertanyaan.


Sejak awal tahun, saya mendapatkan banyak lalu lintas dengan agen pengguna:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

Log akses saya menunjukkan 40% - 60% dari agen pengguna itu. Itu aneh karena agen pengguna menyatakan browser Firefox 3.0.10 (adakah yang menggunakan browser itu pada 2012? Jelas tidak 40% -60% pengunjung di situs web normal).

Juga, log menunjukkan bahwa agen pengguna ini hanya meminta dokumen HTML dan tidak ada aset yang direferensikan seperti gambar, css, file js.

Saya memeriksa IP dari permintaan tersebut (dengan UA itu). Itu datang dari seluruh dunia. Saya menyadari bahwa IP tersebut terkadang memiliki agen pengguna seluler.

Jadi kecurigaan saya adalah aplikasi seluler yang melakukan banyak "permintaan spider". Akan lebih baik untuk mengetahui akar penyebab lalu lintas dari agen pengguna itu.

Adakah yang bisa mengidentifikasi akar penyebabnya?

Dalam beberapa minggu terakhir, kami menyadari bahwa lalu lintas dari UA itu turun dan lalu lintas lainnya meningkat. Sepertinya bot / perayap sekarang menggunakan UA yang lebih umum dan karenanya lebih sulit untuk diblokir. Saya melihat orang lain mengatakan itu dalam jawaban untuk pertanyaan ini tetapi terhapus ketika serverfault memutuskan untuk mengatur kembali pertanyaan ini.

LAMA menjawab sebagai referensi


Perbarui dari Dee

Saya menjalankan situs web saya sendiri yang sangat sangat diperdagangkan dan saya melihat hal yang sama persis di apache log kami selama sebulan terakhir (saya belum memiliki kesempatan untuk memeriksa lebih jauh lagi). 40% dari semua permintaan adalah persentase yang saya lihat, yang jelas-jelas gila.

Dan saya juga memperhatikan bahwa permintaan selalu mengatakan bahwa browser yang meminta tidak mendukung kompresi gzip - menghasilkan semua permintaan halaman web yang dikirim tanpa kompresi dan penggunaan bandwidth kami melonjak tinggi!

Tapi sejauh ini saya belum dapat menentukan apa yang sebenarnya terjadi - yang saya duga sejauh ini adalah mungkin itu semacam server proxy atau semacamnya untuk perangkat seluler yang mengirimkan string agen palsu.

Diedit untuk menambahkan: Baru saja melakukan penelitian lebih lanjut dan sepertinya itu adalah perangkat lunak antivirus: http://www.webmasterworld.com/search_engine_spiders/4428772.htm


Perbarui dari jamur21

Ya, kami telah memperhatikan lalu lintas serupa di beberapa situs.

Kami masih mencari akar penyebabnya, tetapi beberapa temuan kami meliputi:

  • Jika laba-laba, ia melakukan pekerjaan yang sangat buruk. Tampaknya untuk memalu hanya satu atau dua URL per domain untuk sementara waktu (mungkin beberapa jam), sampai pindah ke URL lain. Konten selalu relatif "terkini", meskipun, yang memberikan kepercayaan pada Google News sebagai faktor, sebagaimana dinyatakan dalam tautan yang diposting Dee dalam jawabannya (semua situs kami adalah situs berita).

  • Sementara IP tersebar secara geografis, bagi kami sebagian besar dari mereka tampaknya terletak di dekat situs asal (sebagian besar situs kami adalah outlet berita lokal, sehingga mereka tidak mendapatkan banyak lalu lintas nasional). Hampir tidak ada permintaan datang dari luar AS. Sekali lagi, ini memberikan kepercayaan kepada URL yang disedot dari Google News (Saya menduga orang yang telah melokalkan Google News dengan kode pos akan melihat konten kami).

  • Sebagian besar waktu, permintaan dapat dihapuskan sebagai kebisingan latar belakang (meskipun sangat bising), tetapi beberapa kali sehari kami akan lonjakan dan UA ini sendiri akan menjelaskan ~ 100mbps lalu lintas selama sekitar 15-30 menit.

  • Sayangnya, walaupun Google News sepertinya merupakan vektor yang memungkinkan untuk ditemukannya URL-URL ini, semua yang kami lihat bersifat tidak langsung dan kami masih belum memiliki senjata merokok untuk mengetahui bagaimana atau mengapa URL-URL ini dipalu.


Pembaruan dari Bannow Bay

Kami memiliki situs berita besar - cerita kami diambil oleh Google News beberapa kali seminggu. Kami telah mendapatkan lalu lintas dari sumber ini sejak akhir November - dan terus bertambah dari minggu ke minggu - mungkin 30 juta imp di bulan Februari.

Penampilan di halaman depan Google News US adalah pemicu untuk lalu lintas ini - sekitar 75 persen permintaan berasal dari IP AS. Tetapi apa pun itu, ia berupaya keras untuk mengaburkan dirinya. Dan itu tidak ramah.

Kami belum menemukan senjata merokok juga - tetapi vendor keamanan utama telah setuju untuk menyelidiki lebih lanjut atas nama kami.


Pembaruan dari Artem Russakovskii

Baru saja hal yang sama terjadi pada situs berita (AndroidPolice.com) untuk pertama kalinya. Sekitar 10 menit dari permintaan acak ini yang melonjak QPS lebih dari 5000% rata-rata kami (5000qps, yang merupakan batas Linode's NodeBalancer). CPU mulai idle ketika permintaan memakan I / O dan jaringan - itu adalah DDOS nyata.

Saya benar-benar ingin membahas hal ini, tetapi saat ini tampaknya benar-benar membingungkan.


Perbarui dari Mark

Hanya menambahkan +1. Kami melihat perilaku yang sama di situs kami. Bukan satu ton informasi baru untuk ditambahkan di sini, tetapi inilah bentuk umum dari lalu lintas kami:

  1. Lalu lintas sangat terdistribusi. Lalu lintas datang dari lebih dari ~ 60 ribu IP unik.
  2. Sebagian besar lalu lintas mencapai satu URL, biasanya URL terbaru yang terdaftar di Google News (meskipun Google News tidak selalu tampak sebagai vektor)
  3. Semua lalu lintas ini berasal dari agen pengguna Firefox / 3.0.10 yang sama seperti yang tercantum di utas ini, meskipun kami telah melihat beberapa agen seluler yang aneh di sana-sini.
  4. Semua lalu lintas yang datang dari agen ini tidak mengandung data pengarah.
  5. Semburan terjadi sekali atau dua kali seminggu selama 30-60 menit dan kemudian hilang.

Pembaruan dari Don Ireland

Posting terakhir adalah 13 April tetapi lalu lintas pasti belum berakhir. Bagian yang paling aneh dari ini mungkin adalah fakta bahwa pembuat malware apa pun yang sepadan dengan garamnya pasti dapat (pasti) menggunakan string agen-pengguna dari browser modern, membuat pertahanan agen-blok-pengguna tidak bernilai. Fakta ini membuatnya seolah-olah sebagai agregator berita 'tidak berbahaya' atau aplikasi lain adalah sumbernya. Namun, sejauh ini, saya juga belum dapat mencapai kesimpulan nyata dan berharap siapa pun yang memiliki informasi akan mempostingnya di sini.

Kami melihat pola yang sama, dengan sebuah berita yang diambil oleh google news diikuti oleh lonjakan lalu lintas yang sangat tinggi yang meminta berita tersebut (tetapi bukan file aksesori seperti gambar). Lalu lintas respons keluar menyebabkan lonjakan yang dapat menjenuhkan jaringan (atau memang, sampai kami mulai merespons dengan hanya kesalahan 503). Serangan-serangan ini (apa lagi yang bisa kita sebut dengan mereka?) Berlangsung rata-rata sekitar 30 menit, tetapi cerita yang sangat populer dapat memiliki lalu lintas tinggi selama satu jam atau lebih (saya berbicara tentang lalu lintas firefox 3.0.10, tentu saja lalu lintas normal juga tetap tinggi untuk sementara).

Dalam periode satu jam (untuk server tunggal dalam grup load balancing) kami melihat 200.000 permintaan, di mana 97.000 adalah permintaan firefox 3.0.10, hampir 50% dari semua permintaan. Dan ketika Anda menganggap bahwa biasanya halaman menghasilkan 10 atau lebih permintaan untuk file utama dan file aksesori, 97.000 alat tenun jauh lebih besar. Saya perhatikan bahwa dari 97.000 terdapat 51.000 alamat IP unik. Dan saya berbicara tentang satu jam (sebenarnya itu lebih dekat ke 45 menit). Apa pun yang menyebabkan ini cukup luas.


Pembaruan dari user119708

Kami memiliki masalah yang sama pada situs web berita teknologi tinggi Perancis.

Setiap kali berita dipublikasikan dan dapat dilihat di berita google, lalu lintas akan meningkat pesat pada berita dengan sekitar 50 hingga 100 kunjungan oleh IP dan agen pengguna "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (. NET CLR 3.5.30729) ".

Semua alamat IP tampaknya berlokasi di Prancis atau di negara-negara Prancis dan tidak memiliki referensi. Tampaknya menjadi bot tetapi mengapa alamat jarak jauh tunggal harus kembali 50 atau 100 kali pada berita yang sama selama beberapa menit? Mungkinkah itu komputer yang terinfeksi? Mengapa fenomena itu muncul ketika berita tersebut terlihat di berita google? Apakah Google bertanggung jawab atas lalu lintas aneh ini?

Jika seseorang dalam topik ini telah menemukan penjelasannya, saya pikir itu akan membantu banyak situs web menengah atau besar untuk mengontrol lalu lintas mereka!

EDIT: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Jika memang komputer yang terinfeksi, itu sangat mengkhawatirkan mengingat jumlah alamat yang terlibat. Kami akan mengimplementasikan skrip ini untuk Apache untuk memblokir semua lalu lintas:

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Pembaruan dari Ernesto

Situs berita umum spanyol menengah, mencatat lalu lintas tinggi dalam beberapa berita yang tidak relevan sejak beberapa hari.

Siapa pun itu, ia memuat HTML lengkap, karena kami melihatnya karena jumlah "tampilan halaman" yang kami tambahkan melalui pembaruan basis data setelah halaman dimuat.

Kami hanya melihat satu atau dua URL yang ditargetkan setiap hari.

Banyak permintaan (7000-12000) atas URL yang sama dalam beberapa detik, didistribusikan sepanjang hari dari IP yang berbeda. Hari-hari berikutnya URL lain ditargetkan.

Tidak ada referer.

Artikel yang ditargetkan muncul di Google News, tetapi kami tidak dapat memastikannya terkait.

Google Analytics tidak mengenalinya sebagai lalu lintas yang sah. Kami memiliki artikel dengan lebih dari 8000 klik dan GA hanya melaporkan 25 atau lebih (saya berasumsi bahwa javascript belum ditafsirkan).


Perbarui dari Old Pro

Menambahkan beberapa titik data untuk Anda.

Bot vs Peramban tidak menganggap UA ini sebagai bot (belum).

Di situs yang paling banyak diperdagangkan yang saya log, penggunaan Mei 2012 hingga saat ini menunjukkan UA ini kurang dari 1% dari lalu lintas. Sebagian besar permintaan UA tampaknya sah (memuat semua sumber daya yang diharapkan, misalnya). Ini pada dasarnya sama dengan untuk Februari 2012.

Halaman depan situs ini jarang diperbarui dan semua konten dinamis diblokir oleh robots.txt.


Ini kemungkinan dari Genieo. Mereka telah memperbarui aplikasi mereka untuk menggunakan agen pengguna baru: Mozilla / 5.0 + (kompatibel; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Itu hits dengan pola yang sama dengan agen pengguna asli tetapi sekarang mereka tampaknya mengidentifikasi diri mereka sendiri. Jika Anda melihat URL di agen pengguna mereka, mereka bahkan mengakui bahwa mereka mungkin atau mungkin masih menghasilkan terlalu banyak lalu lintas ke situs web tertentu. - cacat


Pembaruan dari Mike Fagan

Kami telah berjuang melawan apa yang kami anggap sebagai serangan DDOS selama berminggu-minggu sekarang. Kami baru mulai melihat Genieo sebagai agen pengguna untuk serangan ini. Sebelumnya kami melihat "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" dan satu ton permintaan dari " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". 10k + IP yang berbeda, Lebih dari 1 juta permintaan per hari menjadi hanya 3 atau 4 halaman di mana IP yang sama meminta halaman 100+ kali dan tidak menarik aset atau iklan tambahan. Temuan saya adalah bahwa tidak satu pun dari IP ini yang benar-benar pergi ke halaman lain di situs kami.

Saya menghubungi Genieo dan ini adalah tanggapan mereka:

"Terima kasih sudah menghubungi kami.

Genieo versi lama mungkin menyebabkan beban lalu lintas yang Anda gambarkan. Kami mohon maaf atas ketidaknyamanan yang mungkin ditimbulkan. Kami merilis dan memperbarui kemarin yang membahas ini, memuat data dari aplikasi kami akan menghilang dalam 24 jam ke depan. Kami yakin kami melakukan layanan yang baik untuk situs Anda dengan memperkenalkannya kepada pengguna baru. Kami tidak menilai dengan benar bahwa ketika basis instalasi kami berkembang, itu mungkin menyebabkan kelebihan beban pada beberapa lokasi.

Genieo adalah surat kabar pribadi atau pembaca RSS yang cerdas. Ini adalah pembaca RSS sisi klien dengan pemfilteran personalisasi semantik yang cerdas. Aplikasi Genieo mengikuti data RSS dari situs favorit pengguna “membaca” artikel dengan melakukan analisis semantik dan memfilternya sehubungan dengan bidang yang diminati pengguna. Jika artikel tersebut sesuai dengan minat pengguna, aplikasi akan menampilkan judul dan cuplikan artikel di beranda pengguna. Mengklik pada judul akan mengarah ke situs artikel - situs Anda. Agen Genieo bersifat otonom (untuk alasan privasi); ini berjalan pada mesin pengguna akhir, ini sebabnya Anda melihat agen mengakses situs Anda dari banyak IP yang berbeda.

Sebagian besar data Genieo berasal dari umpan RSS normal pengguna, tetapi Genieo juga menambahkan beberapa konten dari situs berita baru yang sebelumnya tidak terdaftar oleh pengguna (untuk kebetulan dan keanekaragaman). Algoritma Genieo mencari artikel “panas”, hit teratas Twitter, YouTube yang paling banyak dilihat, dan sorotan dan cek berita Google jika cocok dengan minat pengguna

Kami tidak mengetahui bahwa ini menyebabkan masalah pemuatan untuk beberapa situs. Setelah ini menjadi perhatian kami, kami memperbarui pengguna saat ini dengan versi baru yang mencegah lonjakan beban.

Salam Hormat,

-Dotan

PS: Kami memang menggunakan "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" di masa lalu (karena bug teknis) tetapi semua pengguna Genieo saat ini harus menggunakan agen pengguna Genieo (untuk beberapa minggu terakhir) "

Mark Henderson
sumber
Bisakah Anda menambah pertanyaan beberapa alamat IP yang muncul di log?
ricmarques
Saya tidak yakin apakah itu perangkat lunak antivirus AVG - karena AVG memperbaiki masalahnya. Selain itu, saya masih berpikir ada peluang bagus bahwa beberapa aplikasi seluler menyebabkan lalu lintas itu - beberapa aplikasi agregator berita (seperti skygrid.com - tetapi itu bukan skygrid karena mereka menggunakan UA yang tepat).
user114293
Berikut beberapa contoh IPs: 196.202.255.1 59.164.38.248 67.4.252.169 24.224.194.26 67.4.39.99 49.123.100.148
user114293
Ya, kami telah memperhatikan lalu lintas serupa di beberapa situs. Kami masih mencari akar penyebabnya, tetapi beberapa temuan kami meliputi: - Jika itu laba-laba, ia melakukan pekerjaan yang sangat buruk. Tampaknya untuk memalu hanya satu atau dua URL per domain untuk sementara waktu (mungkin beberapa jam), sampai pindah ke URL lain. Konten selalu relatif "terkini", meskipun, yang memberikan kepercayaan pada Google News sebagai faktor, sebagaimana dinyatakan dalam tautan yang diposting Dee dalam jawabannya (semua situs kami adalah situs berita). - Sementara IP tersebar secara geografis, bagi kami sebagian besar dari mereka tampaknya terletak di dekat situs asal (kebanyakan
jamur2
Kami memiliki situs berita besar - cerita kami diambil oleh Google News beberapa kali seminggu. Kami telah mendapatkan lalu lintas dari sumber ini sejak akhir November - dan terus bertambah dari minggu ke minggu - mungkin 30 juta imp di bulan Februari. Penampilan di halaman depan Google News US adalah pemicu untuk lalu lintas ini - sekitar 75 persen permintaan berasal dari IP AS. Tetapi apa pun itu, ia berupaya keras untuk mengaburkan dirinya. Dan itu tidak ramah. Kami belum menemukan senjata merokok juga - tetapi vendor keamanan utama telah setuju untuk menyelidiki lebih lanjut atas nama kami.
Teluk Bannow

Jawaban:

1

Saya pikir pengguna dflaw menemukannya. Ini perangkat lunak dari Genieo. Kami melakukan beberapa tes dan menghubungi mereka. Semua hasil dipublikasikan di sini .

pengguna114293
sumber