Saya mencari untuk mengelompokkan satu set data kecil (64 pengamatan dari 4 variabel interval dan satu variabel kategori tiga faktor). Sekarang, saya cukup baru dalam analisis klaster, tetapi saya sadar bahwa telah ada banyak kemajuan sejak zaman ketika hierarkis clustering atau k-means adalah satu-satunya pilihan yang tersedia. Secara khusus, nampak bahwa metode baru dari pengelompokan berbasis model tersedia yang, sebagaimana ditunjukkan oleh chl , memungkinkan penggunaan "indeks kebaikan untuk memutuskan tentang jumlah cluster atau kelas".
Namun, paket R standar untuk pengelompokan berbasis model mclust
tampaknya tidak akan cocok dengan model dengan tipe data campuran. The fpc
Model akan, tetapi memiliki kesulitan pas model, saya menduga karena sifat non-gaussian dari variabel kontinu. Haruskah saya melanjutkan dengan pendekatan berbasis model? Saya ingin terus menggunakan R jika memungkinkan. Seperti yang saya lihat, saya memiliki beberapa opsi:
- Ubah variabel kategori tiga tingkat menjadi dua variabel dummy dan gunakan
mclust
. Saya tidak yakin apakah ini akan bias hasilnya, tetapi jika tidak ini adalah pilihan saya. - Ubah variabel kontinu dan gunakan
fpc
paket. - Gunakan beberapa paket R lain yang belum saya temui.
- Buat matriks ketidaksamaan menggunakan ukuran Gower dan gunakan teknik hierarki tradisional atau relokasi.
Apakah stats.se hivemind punya saran di sini?
Jawaban:
Saya akan merekomendasikan Anda untuk menggunakan Gower dengan pengelompokan hierarki berikutnya. Hierarchical clustering tetap menjadi metode yang paling fleksibel dan tepat dalam kasus sejumlah kecil objek (seperti 64). Jika variabel kategorikal Anda adalah nominal, Gower akan mengkodekan ulang secara internal menjadi variabel dummy dan kesamaan dadu basis (sebagai bagian dari Gower) di dalamnya. Jika variabel Anda adalah ordinal, Anda harus tahu bahwa versi terbaru tentang koefisien Gower dapat mengakomodasinya juga.
Adapun banyak indeks untuk menentukan jumlah "terbaik" dari cluster, kebanyakan dari mereka ada secara independen dari ini atau itu algoritma pengelompokan. Anda tidak perlu mencari paket pengelompokan yang harus memasukkan indeks seperti itu karena yang terakhir mungkin ada sebagai paket terpisah. Anda meninggalkan serangkaian solusi cluster setelah paket cluster dan kemudian membandingkannya dengan indeks dari paket lain.
sumber