Apa "artikel 2001" untuk memblokir "program pencarian otomatis" yang dirujuk oleh halaman manual wget?

11

The wgetman page menyatakan ini, di bawah bagian untuk --random-waitparameter:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Saya ingin mendapatkan salinan artikel ini untuk dibaca, dan telah mencoba banyak pencarian di Internet untuk menentukan artikel tersebut. Namun, yang dapat saya temukan dengan pencarian ini adalah halaman manual untuk wgethost di situs web yang berbeda; dan beberapa makalah penelitian lain yang tidak ada hubungannya sama sekali dengan topik ini.

Adakah yang tahu artikel mana yang sedang dirujuk dan di mana saya bisa mendapatkan salinannya?

pengguna2064000
sumber
Saya sedang menggali milis wget dan menemukan ini: lists.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u

Jawaban:

15

Meskipun bukan jawaban langsung, git blamedan git logmengungkapkan bahwa bagian ini diperkenalkan di komit 2c41d783 oleh seorang committer bernama hniksic, yang ternyata adalah Hrvoje Niksic. Alamat emailnya dapat ditemukan di ChangeLogfile wget (saya tidak akan mempublikasikannya di sini karena alasan yang jelas). Saya sarankan bertanya kepadanya secara langsung, karena ia mungkin yang terbaik untuk memberikan jawaban yang lebih memadai. Saat melakukannya, Anda mungkin mempertimbangkan untuk bertanya kepadanya apakah dia akan keberatan memperbarui halaman buku yang sesuai. ;)

Andreas Wiese
sumber
4

Saya pikir mungkin artikel ini:

Membuat data yang bermakna dari log web menggunakan basis SAS

Ada paragraf yang membahas pemblokiran rentang kelas C:

Setelah alamat IP dipisahkan menjadi komponen-komponennya, pemfilteran rentang alamat IP menjadi sederhana. Filter kelas B dilakukan terhadap dua oktet pertama, misalnya 168.126.xx.xx. Ini adalah variabel Onetwo dalam contoh kode di atas. Rentang kelas C lebih umum digunakan karena mereka menargetkan seluruh server dan menggunakan tiga dari empat oktet, misalnya 168.126.56.xx. Dalam contoh kode di atas, ini bidang Tiga mengingat bahwa Usrhost adalah nilai alamat TCP / IP log web.

Dan satu yang disebutkan wgetdalam pemblokiran berbasis agen pengguna:

Metode pilihan kami untuk identifikasi string agen pengguna menggunakan fungsi pencocokan pola indeks. Sebagai contoh:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Itu adalah hasil kelima di Googling untuk "log analysis wget" untuk tahun 2001 .

muru
sumber