Misalkan Anda memiliki log dari server web. Dalam log ini Anda memiliki tupel seperti ini:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Stempel waktu ini mewakili misalnya klik pengguna. Sekarang, user1
akan mengunjungi situs beberapa kali (sesi) selama bulan itu, dan Anda akan memiliki ledakan klik dari setiap pengguna selama setiap sesi (seandainya ketika seorang pengguna mengunjungi situs Anda, ia akan mengklik beberapa halaman).
Misalkan Anda ingin mempartisi ledakan klik ini di sesi yang menghasilkannya, tetapi Anda tidak memiliki sumber informasi tambahan, hanya daftar cap waktu. Jika Anda menghitung distribusi interval antara dua klik konsekuen dari pengguna yang sama, Anda akan mendapatkan distribusi berekor panjang. Secara intuitif, Anda akan mencari "cut parameter", misalnya N detik, di mana jika timestamp_{i+1} - timestamp{i} > N
, maka Anda timestamp_{i+1}
adalah awal dari sesi baru.
Masalahnya adalah distribusi ini dalam kenyataannya adalah campuran dari dua variabel: X = "interval antara dua klik konsekuen dalam sesi yang sama" dan Y = "interval antara klik terakhir dari sesi sebelumnya dan yang pertama dari yang baru".
Pertanyaannya adalah, bagaimana memperkirakan N ini, yang membagi dua distribusi (dengan sedikit tumpang tindih, mungkin) hanya dengan melihat rentetan klik?
sumber
Jawaban:
Anda benar-benar harus memetakan logaritma interval antar-klik alih-alih nilai mentah; ini akan meratakan distribusi Anda dan bahkan mungkin mengungkapkan beberapa mode dalam distribusi Anda.
Pendekatan yang lebih maju telah dikembangkan oleh ahli saraf untuk memecahkan masalah yang sangat mirip dalam mengidentifikasi semburan paku neuron. Makalah klasik ini atau banyak makalah terkait lainnya di google scholar .
sumber