Metode cluster kuat untuk data campuran di R

12

Saya mencari untuk mengelompokkan satu set data kecil (64 pengamatan dari 4 variabel interval dan satu variabel kategori tiga faktor). Sekarang, saya cukup baru dalam analisis klaster, tetapi saya sadar bahwa telah ada banyak kemajuan sejak zaman ketika hierarkis clustering atau k-means adalah satu-satunya pilihan yang tersedia. Secara khusus, nampak bahwa metode baru dari pengelompokan berbasis model tersedia yang, sebagaimana ditunjukkan oleh chl , memungkinkan penggunaan "indeks kebaikan untuk memutuskan tentang jumlah cluster atau kelas".

Namun, paket R standar untuk pengelompokan berbasis model mclusttampaknya tidak akan cocok dengan model dengan tipe data campuran. The fpcModel akan, tetapi memiliki kesulitan pas model, saya menduga karena sifat non-gaussian dari variabel kontinu. Haruskah saya melanjutkan dengan pendekatan berbasis model? Saya ingin terus menggunakan R jika memungkinkan. Seperti yang saya lihat, saya memiliki beberapa opsi:

  1. Ubah variabel kategori tiga tingkat menjadi dua variabel dummy dan gunakan mclust. Saya tidak yakin apakah ini akan bias hasilnya, tetapi jika tidak ini adalah pilihan saya.
  2. Ubah variabel kontinu dan gunakan fpcpaket.
  3. Gunakan beberapa paket R lain yang belum saya temui.
  4. Buat matriks ketidaksamaan menggunakan ukuran Gower dan gunakan teknik hierarki tradisional atau relokasi.

Apakah stats.se hivemind punya saran di sini?

fmark
sumber
Untuk mengonversi data kategorikal Anda menjadi kode dummy (satu kode panas), Anda dapat menggunakan fungsi dummy.data.frame. sebagai input, Anda dapat memberikan data campuran Anda dan sebagai output itu hanya mengkodekan yang kategorikal.
Naghmeh

Jawaban:

7

Saya akan merekomendasikan Anda untuk menggunakan Gower dengan pengelompokan hierarki berikutnya. Hierarchical clustering tetap menjadi metode yang paling fleksibel dan tepat dalam kasus sejumlah kecil objek (seperti 64). Jika variabel kategorikal Anda adalah nominal, Gower akan mengkodekan ulang secara internal menjadi variabel dummy dan kesamaan dadu basis (sebagai bagian dari Gower) di dalamnya. Jika variabel Anda adalah ordinal, Anda harus tahu bahwa versi terbaru tentang koefisien Gower dapat mengakomodasinya juga.

Adapun banyak indeks untuk menentukan jumlah "terbaik" dari cluster, kebanyakan dari mereka ada secara independen dari ini atau itu algoritma pengelompokan. Anda tidak perlu mencari paket pengelompokan yang harus memasukkan indeks seperti itu karena yang terakhir mungkin ada sebagai paket terpisah. Anda meninggalkan serangkaian solusi cluster setelah paket cluster dan kemudian membandingkannya dengan indeks dari paket lain.

ttnphns
sumber
Saya akhirnya melalui rute ini, terima kasih atas tipnya.
fmark