Klaster data clickstream

8

Baru-baru ini saya memasuki bidang pembelajaran mesin dan proyek yang sedang saya kerjakan mengharuskan saya untuk mengelompokkan pengguna berdasarkan urutan mereka mengunjungi halaman web di situs web. Saya punya data dalam bentuk:

['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]

Di mana setiap angka adalah kategori / halaman yang dikunjungi pengguna. Selain itu, panjang data untuk setiap pengguna tidak sama yaitu beberapa pengguna mengunjungi lebih banyak halaman daripada yang lain.

Saya menyadari ini benar-benar kabur dan mendefinisikan kesamaan itu sulit. Saya mencoba mengikuti contoh dalam makalah penelitian ini dan sejujurnya banyak yang terlintas di kepala saya.

Saya butuh bantuan dalam cara mendekati masalah ini dan terbuka untuk ide dan saran baru.

Arjun Aletty
sumber

Jawaban:

3

Ini adalah pertanyaan yang bagus dengan banyak aplikasi praktis.

Data Anda berurutan sehingga kami membutuhkan ukuran kesamaan antara setiap pasangan urutan. Saya merekomendasikan jarak Levensthein karena sangat intuitif dan didefinisikan dengan sangat baik. Lihat juga tesis sarjana yang bagus ini dengan ikhtisar langkah-langkah lebih lanjut untuk data sekuensial.

Akhirnya, jika seseorang memiliki jarak antara semua pasangan urutan, kita dapat menggunakan algoritma pengelompokan apa pun yang menggunakan matriks jarak sebagai input (misalnya algoritma hierarki apa pun).

Miroslav Sabo
sumber
2

Anda dapat menggunakan paket clickstream atau clickclust dalam bahasa R. Ini melakukan persis apa yang Anda cari.

Sagar
sumber
2
Ini benar-benar lebih cocok sebagai komentar daripada jawaban.
Silverfish