Interpretasi dari User-agent kosong

12

Bagaimana saya harus menafsirkan Agen-pengguna kosong? Saya memiliki beberapa kode analisis khusus dan kode itu hanya menganalisis lalu lintas manusia. Saya sudah mendapatkan daftar kerja agen-pengguna yang menunjukkan lalu lintas manusia dan lalu lintas bot, tetapi agen-pengguna kosong terbukti bermasalah. Dan saya mendapatkan banyak lalu lintas dengan agen-Pengguna kosong, sekitar 10%.

Selain itu, saya telah membuat daftar agen pengguna lalu lintas manusia dan bot lalu lintas dengan menganalisis log saya saat ini. Karena itu saya mungkin kehilangan banyak entri di sana. Apakah ada daftar agen pengguna yang dipelihara dengan baik yang menunjukkan lalu lintas bot atau, kebalikannya, daftar agen pengguna yang menunjukkan lalu lintas manusia?

Amit Agrawal
sumber
1
Daftar kemungkinan agen pengguna sangat panjang. Misalnya, lihat daftar agen pengguna seluler saja di sini: zytrax.com/tech/web/mobile_ids.html
Max Vernon
Agen pengguna kosong sangat jarang - perangkat lunak server apa yang Anda gunakan? Bagaimana Anda mendapatkan agen-pengguna? Apakah Anda yakin itu benar-benar kosong, atau ada bug dalam sistem pengumpulan Anda yang membuat agen-pengguna kosong?
Max Vernon
@ Max - Saya sendiri terkejut dengan agen pengguna yang kosong. Saya menggunakan tumpukan LAMP. Saya mengumpulkan agen pengguna melalui PHP sebagai $ _SERVER ['HTTP_USER_AGENT']. Kode ini sederhana; meskipun saya tidak bisa sepenuhnya mengabaikan kemungkinan agen pengguna ada di sana tetapi kode saya gagal untuk mengumpulkannya, atau database menolak untuk menyimpannya, saya ragu itu yang terjadi.
1
Jika Anda memiliki akses ke log akses Apache: Apakah agen pengguna yang dicatat juga kosong?
mungkin Anda memiliki pengikis yang mengakses situs Anda? Itu mungkin satu cara yang tampaknya pengunjung tidak memiliki USER_AGENT
Max Vernon

Jawaban:

5

Jika Anda ingin menganalisis hanya "lalu lintas manusia" saya tidak akan menghitung yang dengan string agen pengguna kosong atau hilang. Dalam pengalaman saya, hampir semua browser akan selalu mengirim satu. Bahkan sebagian besar plugin atau ekstensi privasi agak palsu (termasuk OS atau nama Klien lain) atau "normalisasi" (misalnya tidak ada nomor rilis) atau acak (misalnya terkadang FF, kadang-kadang string IE) string UA, tetapi tidak sepenuhnya menghapusnya (karena ini mungkin menyebabkan masalah dengan beberapa situs yang bergantung padanya, meskipun itu bukan ide yang bagus.)

Permintaan sederhana tanpa UA dapat dilakukan seperti ini:

wget --user-agent="" www.example.com

Seperti yang Anda lihat, Anda dapat menambahkan apa pun yang Anda inginkan. Situs yang menyimpan dan mempublikasikan UA yang ditemukan "di alam liar" tidak bermanfaat karena mereka menemukan banyak omong kosong.

Mungkin seseorang baru saja mengambil konten Anda secara rekursif. Atau menggunakan beberapa alat SEO untuk menganalisis situs Anda (beberapa mengizinkan pengguna untuk mengubah tajuk secara manual, yang lain dengan maksud untuk mengabaikan baris robots.txt). Hal-hal seperti itu. Dalam situasi tersebut, header UA sering dipalsukan untuk menyembunyikan klien dan tujuan.

Jika permintaan ini terus ada, mungkin akan membantu untuk menganalisis lebih lanjut tajuk (Proxy?) Atau IP (Blok tertentu? Privasi terkait perusahaan / Proxy?)

initall
sumber
2

Saya bekerja untuk perusahaan keamanan dan antara lain kami memantau lalu lintas Bad Bot.

Berdasarkan pengalaman saya, kunjungan manusia dengan data agen pengguna kosong menunjukkan upaya memo / spam (biasanya memo) yang dilakukan oleh bot "browser tanpa kepala".

Pengunjung ini kadang-kadang dapat mengeksekusi JS, sehingga mereka akan muncul di GA - tetap, dosis ini tidak membuat mereka menjadi manusia :)

Mohon maaf untuk "colokan" tapi ketahuilah bahwa, jika perlu, kami menawarkan layanan perlindungan Bad Bot gratis - ditambah dengan akselerasi CDN dan barang lainnya.

Dalam kasus khusus ini, sistem kami akan mengenali kunjungan ini sebagai "mencurigakan", memverifikasinya terhadap vektor serangan yang diketahui dan - jika masih ragu - melakukan pengujian dan tantangan lebih lanjut. Tantangan-tantangan ini dilakukan dengan mulus, tanpa menyebabkan penundaan sesi.

Igal Zeifman
sumber
0

Setiap bit perangkat lunak yang mengakses internet tidak secara ajaib diberikan agen pengguna. Pengembang perangkat lunak harus memprogram fungsionalitas itu ke dalam perangkat lunak mereka. Agen pengguna kosong Anda hanya berarti bahwa pengembang perangkat lunak lupa untuk menambahkan agen pengguna ke perangkat lunak mereka.


sumber
Atau pengguna browser menghapus / memblokir string UA.
unor
5
Ini salah. Mengatakannya "hanya berarti" menyiratkan bahwa biasanya atau paling tidak sering alasannya. Hanya sedikit orang yang menggunakan perangkat lunak http siapa pengembang akan melewatkan UA dari kemalasan. Jika ada yang hampir selalu mengindikasikan sumber lalu lintas tidak ingin diidentifikasi, dan sangat terkait dengan lalu lintas berbahaya atau eksploitatif. Sayangnya beberapa perusahaan besar (Facebook) telah menggunakan string agen pengguna kosong di masa lalu, jadi itu tidak selalu bijaksana untuk memblokir mereka sepenuhnya.
jerclarke
1
@jeremyclarke +1 Perilaku seperti ini tidak boleh diabaikan! Dan rasa malu di Facebook! Jika bot atau browser yang sah perlu melihat situs, mereka harus selalu memiliki pengidentifikasi. Lagi pula, mereka memasuki properti orang lain. Tidak memiliki agen pengguna seperti pencuri yang menyelinap masuk dengan topeng untuk mengaburkan identitas mereka.
whitebeard
2
Ini seperti seseorang dengan wajah tertutup berjalan bolak-balik melintasi trotoar di depan rumah Anda. Tidak harus ilegal, tetapi jika Anda tidak menjawab pintu mereka seharusnya tidak menganggap Anda gila.
jerclarke
0

Saya melihat beberapa komentar dalam jawaban untuk pertanyaan ini membandingkan Agen Pengguna dengan menyembunyikan identitas Anda atau menjadi manusia. Ini adalah perbandingan yang tidak masuk akal. User-Agent tidak ada hubungannya dengan identitas atau menjadi manusia.

Anggap saja seperti alas kaki. Anda bertanya kepada pengunjung Anda apa jenis alas kaki yang mereka kenakan sebelum Anda mengizinkannya. Kegunaan paling umum dari ini adalah untuk mengetahui jenis karpet apa yang perlu Anda buat, karpet merah yang bagus untuk sepatu pakaian bersih, keset jelek untuk lumpur sepatu bot, dan tidak ada karpet untuk para pengunjung yang alergi karpet.

Ketika pengunjung tidak ingin mengatakan alas kaki apa yang mereka miliki (alias. Agen Pengguna kosong) Anda abaikan.

Ya, ada banyak praktik baik yang mencoba mengasumsikan hal-hal tentang permintaan web berdasarkan User-Agent dan informasi header permintaan lainnya. Mereka mungkin bekerja sangat baik 99% dari waktu, tetapi seperti dengan begitu banyak praktik serupa lainnya mereka cenderung positif palsu dan dengan demikian merugikan pengguna yang tidak tahu apa-apa.

Setelah mengalami masalah secara tidak sengaja menggunakan Agen-Pengguna kosong sendiri, saya pasti dapat mengatakan bahwa itu tidak menyenangkan ketika layanan web memperlakukan Anda secara berbeda hanya karena Anda tidak berpikir untuk menceritakannya tentang alas kaki Anda.

Deantwo
sumber