Misalkan saya memiliki vektor yang dipesan di mana elemen pertama adalah jumlah kunjungan ke situs web dalam periode waktu tertentu oleh IP unik dengan jumlah kunjungan tertinggi, elemen kedua adalah jumlah kunjungan oleh IP unik dengan yang kedua. jumlah kunjungan tertinggi, dan sebagainya. Saya mengerti mungkin ada variasi per situs, tetapi apakah ada pola diasumsikan secara umum untuk bentuk vektor ini? Apakah itu, misalnya, mengikuti distribusi kuasa-hukum?
14
Jawaban:
Tidak, pengunjung unik ke situs web tidak mengikuti undang-undang kekuasaan.
Dalam beberapa tahun terakhir, ada peningkatan kekakuan dalam menguji klaim hukum kekuasaan (misalnya, Clauset, Shalizi dan Newman 2009). Rupanya, klaim masa lalu sering tidak diuji dengan baik dan itu biasa untuk memplot data pada skala log-log dan mengandalkan "uji bola mata" untuk menunjukkan garis lurus. Sekarang setelah tes formal lebih umum, banyak distribusi ternyata tidak mengikuti hukum kekuasaan.
Dua referensi terbaik yang saya tahu yang memeriksa kunjungan pengguna di web adalah Ali dan Scarr (2007) dan Clauset, Shalizi and Newman (2009).
Ali dan Scarr (2007) melihat sampel acak klik pengguna di situs web Yahoo dan menyimpulkan:
Berikut adalah histogram dari klik masing-masing pengguna lebih dari sebulan dan data yang sama pada plot log-log, dengan model berbeda yang mereka bandingkan. Data jelas tidak pada garis log-log lurus yang diharapkan dari distribusi daya bebas skala.
Clauset, Shalizi dan Newman (2009) membandingkan penjelasan hukum kekuatan dengan hipotesis alternatif menggunakan tes rasio kemungkinan dan menyimpulkan baik web hit dan tautan "tidak masuk akal untuk mengikuti hukum kekuasaan." Data mereka untuk yang pertama adalah hit web oleh pelanggan dari layanan Internet Online Amerika dalam satu hari dan untuk yang terakhir adalah tautan ke situs web yang ditemukan dalam web crawl tahun 1997 sekitar 200 juta halaman web. Gambar di bawah ini memberikan fungsi distribusi kumulatif P (x) dan kemungkinan kekuatan-hukumnya maksimum.
Untuk kedua set data ini, Clauset, Shalizi dan Newman menemukan bahwa distribusi daya dengan cuton eksponensial untuk memodifikasi ekor ekstrem distribusi jelas lebih baik daripada distribusi hukum daya murni dan bahwa distribusi log-normal juga cocok. (Mereka juga melihat hipotesis eksponensial dan memperluas eksponensial.)
Jika Anda memiliki dataset di tangan dan tidak hanya ingin tahu, Anda harus memasangnya dengan model yang berbeda dan membandingkannya (dalam R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, lebih rendah. tail = FALSE)). Saya akui saya tidak tahu bagaimana cara memodelkan model ZM yang tidak bisa disetel. Ron Pearson telah menulis blog tentang distribusi ZM dan tampaknya ada paket R zipfR. Saya, saya mungkin akan mulai dengan model binomial negatif tapi saya bukan ahli statistik nyata (dan saya suka pendapat mereka).
(Saya juga ingin komentator kedua @richiemorrisroe di atas yang menunjukkan data kemungkinan dipengaruhi oleh faktor-faktor yang tidak terkait dengan perilaku manusia secara individu, seperti program merayapi web dan alamat IP yang mewakili komputer banyak orang.)
Makalah menyebutkan:
Clauset, Aaron, Cosma Rohilla Shalizi, dan Mark EJ Newman. "Distribusi kekuatan-hukum dalam data empiris." Ulasan SIAM 51.4 (2009): 661-703. (Lihat juga situs ini)
Ali, Kamal, dan Mark Scarr. "Metodologi yang kuat untuk memodelkan distribusi klik web." Prosiding konferensi internasional ke-16 di World Wide Web. ACM, 2007.
sumber