Saya punya pertanyaan yang sangat mendasar tentang pengelompokan. Setelah saya menemukan k cluster dengan centroid mereka, bagaimana cara menafsirkan kelas poin data yang telah saya klaster (memberikan label kelas yang bermakna untuk masing-masing cluster). Saya tidak berbicara tentang validasi cluster yang ditemukan.
Dapatkah itu dilakukan dengan diberikan satu set kecil titik data berlabel, menghitung ke cluster mana titik-titik berlabel ini milik dan berdasarkan pada jenis dan jumlah titik yang diterima masing-masing cluster, memutuskan labelnya? Tampaknya ini cukup jelas, tetapi saya tidak tahu bagaimana standarnya untuk menetapkan label ke klaster dengan cara ini.
Agar jelas, saya ingin melakukan pengelompokan tanpa pengawasan yang tidak menggunakan label apa pun untuk pertama kali menemukan kluster saya. Kemudian setelah menemukan cluster, saya ingin menetapkan label kelas yang bermakna untuk cluster berdasarkan properti dari beberapa contoh datapoints.
Jawaban:
Iya. Apa yang Anda usulkan sepenuhnya standar dan itu adalah cara perangkat lunak k-means standar bekerja secara otomatis. Dalam kasus k-means, Anda menghitung jarak euclidean antara setiap pengamatan (titik data) dan setiap rata-rata kluster (centroid) dan menetapkan pengamatan ke kluster yang paling mirip. Kemudian, label cluster ditentukan dengan memeriksa bahwa karakteristik rata-rata pengamatan diklasifikasikan ke cluster relatif terhadap rata-rata relatif terhadap cluster lain.
sumber
Jika Anda melihat nama-nama dalam objek kmeans Anda, Anda akan melihat bahwa ada objek "cluster". Ini berisi label kelas yang dipesan sama dengan data input Anda. Berikut adalah contoh sederhana yang mengikat label kluster kembali ke data Anda.
sumber
Label untuk kluster mungkin didasarkan pada kelas sampel mayoritas dalam sebuah kluster. Tetapi ini benar hanya jika jumlah cluster sama dengan jumlah kelas.
sumber