Mengenai analisis keranjang belanja, saya pikir tujuan utamanya adalah untuk mengindividuasikan kombinasi produk yang paling sering dibeli oleh pelanggan. The association rules
mewakili metodologi alami yang paling di sini (memang mereka benar-benar dikembangkan untuk tujuan ini). Menganalisis kombinasi produk yang dibeli oleh pelanggan, dan berapa kali kombinasi ini diulang, mengarah ke aturan jenis 'jika kondisi, maka hasil' dengan pengukuran menarik yang sesuai. Anda juga dapat mempertimbangkan Log-linear models
untuk menyelidiki hubungan antara variabel yang dipertimbangkan.
Sekarang untuk pengelompokan, berikut adalah beberapa informasi yang mungkin berguna:
Pertimbangan pertama Variable clustering
. Clustering variabel digunakan untuk menilai collinearity, redundancy, dan untuk memisahkan variabel menjadi cluster yang dapat dinilai sebagai variabel tunggal, sehingga menghasilkan reduksi data. Cari varclus
fungsinya (paket Hmisc dalam R)
Penilaian stabilitas clusterwise: function clusterboot
{R package fpc}
Statistik berbasis jarak untuk validasi klaster: function cluster.stats
{R package fpc}
Seperti mbq telah disebutkan, gunakan lebar siluet untuk menilai jumlah cluster terbaik. Lihat ini . Mengenai lebar siluet, lihat juga fungsi optsil .
Perkirakan jumlah cluster dalam set data melalui statistik gap
Untuk menghitung Indeks Dissimilaritas dan Jarak, lihat dsvdis dan vegdist
Algoritma pengelompokan EM dapat memutuskan berapa banyak cluster yang akan dibuat dengan validasi silang, (jika Anda tidak dapat menentukan berapa banyak cluster yang akan dihasilkan). Meskipun algoritma EM dijamin untuk konvergen ke maksimum, ini adalah maksimum lokal dan mungkin tidak harus sama dengan global maksimum. Untuk peluang yang lebih baik untuk mendapatkan global maksimum, seluruh prosedur harus diulang beberapa kali, dengan tebakan awal yang berbeda untuk nilai parameter. Angka log-likelihood keseluruhan dapat digunakan untuk membandingkan berbagai konfigurasi akhir yang diperoleh: cukup pilih yang terbesar dari maxima lokal . Anda dapat menemukan implementasi pengelompokan EM di proyek open-source WEKA
Ini juga tautan yang menarik.
Juga mencari di sini untukFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Akhirnya, Anda dapat menjelajahi hasil pengelompokan menggunakan clusterfly