Apakah pengunjung unik ke situs web mengikuti hukum yang kuat?

14

Misalkan saya memiliki vektor yang dipesan di mana elemen pertama adalah jumlah kunjungan ke situs web dalam periode waktu tertentu oleh IP unik dengan jumlah kunjungan tertinggi, elemen kedua adalah jumlah kunjungan oleh IP unik dengan yang kedua. jumlah kunjungan tertinggi, dan sebagainya. Saya mengerti mungkin ada variasi per situs, tetapi apakah ada pola diasumsikan secara umum untuk bentuk vektor ini? Apakah itu, misalnya, mengikuti distribusi kuasa-hukum?

Jon Smark
sumber
6
IP tidak akan cocok dengan orang terutama karena pengalamatan dinamis dan berbagai masalah lainnya (seperti orang yang menggunakan banyak komputer). Jika saya ingin menguji hipotesis ini, saya mungkin akan menggunakan ID pengunjung daripada alamat IP.
richiemorrisroe

Jawaban:

23

Tidak, pengunjung unik ke situs web tidak mengikuti undang-undang kekuasaan.

Dalam beberapa tahun terakhir, ada peningkatan kekakuan dalam menguji klaim hukum kekuasaan (misalnya, Clauset, Shalizi dan Newman 2009). Rupanya, klaim masa lalu sering tidak diuji dengan baik dan itu biasa untuk memplot data pada skala log-log dan mengandalkan "uji bola mata" untuk menunjukkan garis lurus. Sekarang setelah tes formal lebih umum, banyak distribusi ternyata tidak mengikuti hukum kekuasaan.

Dua referensi terbaik yang saya tahu yang memeriksa kunjungan pengguna di web adalah Ali dan Scarr (2007) dan Clauset, Shalizi and Newman (2009).

Ali dan Scarr (2007) melihat sampel acak klik pengguna di situs web Yahoo dan menyimpulkan:

Kebijaksanaan yang berlaku adalah bahwa distribusi klik web dan tampilan halaman mengikuti distribusi kekuatan hukum bebas skala. Namun, kami telah menemukan bahwa deskripsi data yang secara signifikan lebih baik secara statistik adalah distribusi Zipf-Mandelbrot yang peka-skala dan bahwa campurannya lebih lanjut meningkatkan kecocokan. Analisis sebelumnya memiliki tiga kelemahan: mereka telah menggunakan sejumlah kecil kandidat distribusi, menganalisis perilaku web pengguna yang kedaluwarsa (sekitar 1998) dan menggunakan metodologi statistik yang dipertanyakan. Meskipun kami tidak dapat menghalangi bahwa distribusi pemasangan yang lebih baik mungkin tidak akan ditemukan suatu hari, kami dapat mengatakan dengan pasti bahwa distribusi Zipf-Mandelbrot yang sensitif terhadap skala memberikan kesesuaian data yang secara signifikan lebih kuat secara signifikan dengan data daripada hukum-daya bebas skala atau Zipf pada berbagai vertikal dari domain Yahoo.

Berikut adalah histogram dari klik masing-masing pengguna lebih dari sebulan dan data yang sama pada plot log-log, dengan model berbeda yang mereka bandingkan. Data jelas tidak pada garis log-log lurus yang diharapkan dari distribusi daya bebas skala.

Gambar 2 dan 4 dari Ali dan Scarr

Clauset, Shalizi dan Newman (2009) membandingkan penjelasan hukum kekuatan dengan hipotesis alternatif menggunakan tes rasio kemungkinan dan menyimpulkan baik web hit dan tautan "tidak masuk akal untuk mengikuti hukum kekuasaan." Data mereka untuk yang pertama adalah hit web oleh pelanggan dari layanan Internet Online Amerika dalam satu hari dan untuk yang terakhir adalah tautan ke situs web yang ditemukan dalam web crawl tahun 1997 sekitar 200 juta halaman web. Gambar di bawah ini memberikan fungsi distribusi kumulatif P (x) dan kemungkinan kekuatan-hukumnya maksimum.

masukkan deskripsi gambar di sini

Untuk kedua set data ini, Clauset, Shalizi dan Newman menemukan bahwa distribusi daya dengan cuton eksponensial untuk memodifikasi ekor ekstrem distribusi jelas lebih baik daripada distribusi hukum daya murni dan bahwa distribusi log-normal juga cocok. (Mereka juga melihat hipotesis eksponensial dan memperluas eksponensial.)

Jika Anda memiliki dataset di tangan dan tidak hanya ingin tahu, Anda harus memasangnya dengan model yang berbeda dan membandingkannya (dalam R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, lebih rendah. tail = FALSE)). Saya akui saya tidak tahu bagaimana cara memodelkan model ZM yang tidak bisa disetel. Ron Pearson telah menulis blog tentang distribusi ZM dan tampaknya ada paket R zipfR. Saya, saya mungkin akan mulai dengan model binomial negatif tapi saya bukan ahli statistik nyata (dan saya suka pendapat mereka).

(Saya juga ingin komentator kedua @richiemorrisroe di atas yang menunjukkan data kemungkinan dipengaruhi oleh faktor-faktor yang tidak terkait dengan perilaku manusia secara individu, seperti program merayapi web dan alamat IP yang mewakili komputer banyak orang.)

Makalah menyebutkan:

MattBagg
sumber
@MattBag, Terlihat menarik, akan mencoba ini dalam kasus ini stats.stackexchange.com/q/41286/13201
FredrikD