Saya menggunakan R untuk melakukan pengelompokan K-means. Saya menggunakan 14 variabel untuk menjalankan K-means
- Apa cara yang bagus untuk memplot hasil K-means?
- Apakah ada implementasi yang ada?
- Apakah memiliki 14 variabel menyulitkan merencanakan hasilnya?
Saya menemukan sesuatu yang disebut GGcluster yang terlihat keren tetapi masih dalam pengembangan. Saya juga membaca sesuatu tentang pemetaan sammon, tetapi tidak memahaminya dengan baik. Apakah ini pilihan yang bagus?
Jawaban:
Saya akan mendorong plot siluet untuk ini, karena tidak mungkin Anda akan mendapatkan banyak informasi yang dapat ditindaklanjuti dari plot pasangan ketika jumlah dimensi adalah 14.
Pendekatan ini sangat dikutip dan terkenal (lihat di sini untuk penjelasan).
Rousseeuw, PJ (1987) Silhouettes: Bantuan grafis untuk interpretasi dan validasi analisis klaster . J. Comput. Appl. Matematika , 20 , 53-65.
sumber
Berikut ini contoh yang dapat membantu Anda:
Berdasarkan plot yang terakhir Anda bisa memutuskan mana variabel awal Anda untuk plot. Mungkin 14 variabel besar, sehingga Anda dapat mencoba analisis komponen utama (PCA) sebelum dan kemudian menggunakan dua atau tiga komponen pertama dari PCA untuk melakukan analisis kluster.
sumber
pairs
fungsinya.Cara paling sederhana yang saya tahu untuk melakukan itu adalah sebagai berikut:
Dengan cara ini Anda dapat menggambar titik-titik masing-masing cluster menggunakan warna dan centroid yang berbeda.
sumber