Memperkirakan fitur paling penting dalam partisi cluster k-means

19

Apakah ada cara untuk menentukan fitur / variabel mana dari dataset yang paling penting / dominan dalam solusi k-means cluster?

pengguna1624577
sumber
1
Bagaimana Anda mendefinisikan "penting / dominan"? Apakah maksud Anda yang paling berguna untuk membedakan antar cluster?
Franck Dernoncourt
3
Ya yang paling berguna adalah yang saya maksud. Saya pikir bagian dari masalah saya dengan mencari tahu ini adalah bagaimana mengatakannya.
user1624577
Terimakasih atas klarifikasinya. Satu istilah yang biasa untuk menunjuk masalah ini dalam pembelajaran mesin adalah pemilihan fitur .
Franck Dernoncourt

Jawaban:

8

Salah satu cara untuk mengukur kegunaan setiap fitur (= variabel = dimensi), dari buku Burns, Robert P., dan Richard Burns. Metode penelitian bisnis dan statistik menggunakan SPSS. Sage, 2008. ( mirror ), kegunaan didefinisikan oleh kekuatan diskriminatif fitur untuk membedakan kluster.

Kami biasanya memeriksa sarana untuk setiap klaster pada setiap dimensi menggunakan ANOVA untuk menilai betapa berbedanya cluster kami. Idealnya, kita akan memperoleh sarana yang sangat berbeda untuk sebagian besar, jika tidak semua dimensi, digunakan dalam analisis. Besarnya nilai F yang dilakukan pada setiap dimensi merupakan indikasi seberapa baik dimensi masing-masing membedakan antar cluster.

Cara lain adalah dengan menghapus fitur tertentu dan melihat bagaimana ini memengaruhi indeks kualitas internal . Tidak seperti solusi pertama, Anda harus mengulang pengelompokan untuk setiap fitur (atau serangkaian fitur) yang ingin Anda analisis.

FYI:

Franck Dernoncourt
sumber
4
Sangat penting untuk menambahkan bahwa dalam konteks ini seseorang tidak boleh mengambil nilai-nilai F (atau p) sebagai indikator signifikansi statistik (yaitu relatif populasi), tetapi lebih sebagai indikator besarnya perbedaan.
ttnphns
3

Saya bisa memikirkan dua kemungkinan lain yang lebih fokus pada variabel mana yang penting untuk cluster mana.

  1. Klasifikasi multi-kelas. Pertimbangkan objek yang termasuk dalam cluster x anggota dari kelas yang sama (misalnya, kelas 1) dan objek yang termasuk anggota kelompok lain dari kelas kedua (misalnya, kelas 2). Latih classifier untuk memprediksi keanggotaan kelas (misalnya, kelas 1 vs kelas 2). Koefisien variabel classifier dapat berfungsi untuk memperkirakan pentingnya setiap variabel dalam mengelompokkan objek ke cluster x . Ulangi pendekatan ini untuk semua kluster lainnya.

  2. Kesamaan variabel intra-cluster. Untuk setiap variabel, hitung kesamaan rata-rata setiap objek dengan centroid-nya. Variabel yang memiliki kesamaan tinggi antara centroid dan objeknya cenderung lebih penting untuk proses pengelompokan daripada variabel yang memiliki kesamaan rendah . Tentu saja, kesamaan kesamaan relatif, tetapi sekarang variabel dapat diberi peringkat berdasarkan sejauh mana mereka membantu untuk mengelompokkan objek di setiap cluster.

Gyan Veda
sumber
0

Ini adalah metode yang sangat sederhana. Perhatikan bahwa jarak Euclidean antara dua pusat cluster adalah jumlah perbedaan kuadrat antara fitur individu. Kita kemudian bisa menggunakan perbedaan kuadrat sebagai bobot untuk setiap fitur.

Jarak Euclidean

ZillGate
sumber