Apakah ada cara untuk menentukan fitur / variabel mana dari dataset yang paling penting / dominan dalam solusi k-means cluster?
machine-learning
clustering
k-means
importance
pengguna1624577
sumber
sumber
Jawaban:
Salah satu cara untuk mengukur kegunaan setiap fitur (= variabel = dimensi), dari buku Burns, Robert P., dan Richard Burns. Metode penelitian bisnis dan statistik menggunakan SPSS. Sage, 2008. ( mirror ), kegunaan didefinisikan oleh kekuatan diskriminatif fitur untuk membedakan kluster.
Cara lain adalah dengan menghapus fitur tertentu dan melihat bagaimana ini memengaruhi indeks kualitas internal . Tidak seperti solusi pertama, Anda harus mengulang pengelompokan untuk setiap fitur (atau serangkaian fitur) yang ingin Anda analisis.
FYI:
sumber
Saya bisa memikirkan dua kemungkinan lain yang lebih fokus pada variabel mana yang penting untuk cluster mana.
Klasifikasi multi-kelas. Pertimbangkan objek yang termasuk dalam cluster x anggota dari kelas yang sama (misalnya, kelas 1) dan objek yang termasuk anggota kelompok lain dari kelas kedua (misalnya, kelas 2). Latih classifier untuk memprediksi keanggotaan kelas (misalnya, kelas 1 vs kelas 2). Koefisien variabel classifier dapat berfungsi untuk memperkirakan pentingnya setiap variabel dalam mengelompokkan objek ke cluster x . Ulangi pendekatan ini untuk semua kluster lainnya.
Kesamaan variabel intra-cluster. Untuk setiap variabel, hitung kesamaan rata-rata setiap objek dengan centroid-nya. Variabel yang memiliki kesamaan tinggi antara centroid dan objeknya cenderung lebih penting untuk proses pengelompokan daripada variabel yang memiliki kesamaan rendah . Tentu saja, kesamaan kesamaan relatif, tetapi sekarang variabel dapat diberi peringkat berdasarkan sejauh mana mereka membantu untuk mengelompokkan objek di setiap cluster.
sumber
Ini adalah metode yang sangat sederhana. Perhatikan bahwa jarak Euclidean antara dua pusat cluster adalah jumlah perbedaan kuadrat antara fitur individu. Kita kemudian bisa menggunakan perbedaan kuadrat sebagai bobot untuk setiap fitur.
sumber