The wget
man page menyatakan ini, di bawah bagian untuk --random-wait
parameter:
Some web sites may perform log analysis to identify retrieval
programs such as Wget by looking for statistically significant
similarities in the time between requests. [...]
A 2001 article in a publication devoted to development on a popular
consumer platform provided code to perform this analysis on the
fly. Its author suggested blocking at the class C address level to
ensure automated retrieval programs were blocked despite changing
DHCP-supplied addresses.
Saya ingin mendapatkan salinan artikel ini untuk dibaca, dan telah mencoba banyak pencarian di Internet untuk menentukan artikel tersebut. Namun, yang dapat saya temukan dengan pencarian ini adalah halaman manual untuk wget
host di situs web yang berbeda; dan beberapa makalah penelitian lain yang tidak ada hubungannya sama sekali dengan topik ini.
Adakah yang tahu artikel mana yang sedang dirujuk dan di mana saya bisa mendapatkan salinannya?
wget
man
documentation
pengguna2064000
sumber
sumber
Jawaban:
Meskipun bukan jawaban langsung,
git blame
dangit log
mengungkapkan bahwa bagian ini diperkenalkan di komit 2c41d783 oleh seorang committer bernamahniksic
, yang ternyata adalah Hrvoje Niksic. Alamat emailnya dapat ditemukan diChangeLog
file wget (saya tidak akan mempublikasikannya di sini karena alasan yang jelas). Saya sarankan bertanya kepadanya secara langsung, karena ia mungkin yang terbaik untuk memberikan jawaban yang lebih memadai. Saat melakukannya, Anda mungkin mempertimbangkan untuk bertanya kepadanya apakah dia akan keberatan memperbarui halaman buku yang sesuai. ;)sumber
Saya pikir mungkin artikel ini:
Membuat data yang bermakna dari log web menggunakan basis SAS
Ada paragraf yang membahas pemblokiran rentang kelas C:
Dan satu yang disebutkan
wget
dalam pemblokiran berbasis agen pengguna:Itu adalah hasil kelima di Googling untuk "log analysis wget" untuk tahun 2001 .
sumber