Clustering dengan langkah-langkah jarak asimetris

9

Bagaimana Anda mengelompokkan fitur dengan pengukur jarak asimetris?

Sebagai contoh, katakanlah Anda mengelompokkan dataset dengan hari dalam seminggu sebagai fitur - jarak dari Senin hingga Jumat tidak sama dengan jarak dari Jumat ke Senin.

Bagaimana Anda memasukkan ini ke dalam ukuran jarak algoritma pengelompokan?

Michael
sumber

Jawaban:

3

Jika jarak MF asimetris karena masa depan berbeda dari masa lalu, maka diperlukan pengelompokan asimetris asli. Pertama, fungsi jarak asimetris harus ditentukan.

Salah satu cara untuk melakukan pengelompokan asimetris, diberikan fungsi jarak, adalah dengan menanamkan data asli ke dalam ruang koordinat baru. Lihat "Struktur Geometris dari Beberapa Model Non-Jarak untuk Asimetris MDS" oleh Naohito Chino dan Kenichi Shiraiwa, Behaviormetrika, 1992 ( pdf ). Ini disebut HCM (Model Canonical Hermitian).

Temukan matriks Hermitian , di mana Temukan nilai eigen dan vektor eigen, lalu skala setiap vektor eigen dengan akar kuadrat dari nilai eigen yang sesuai.H

Hij=12[d(xi,xj)+d(xj,xi)]+i12[d(xi,xj)d(xj,xi)]

Ini mengubah data menjadi ruang bilangan kompleks. Setelah data disematkan, jarak antara objek x dan y hanya x * y, di mana * adalah konjugat transpos. Pada titik ini Anda dapat menjalankan k-means pada vektor kompleks.

Spectral asymmetric clustering juga telah dilakukan, lihat tesis oleh Stefan Emilov Atev, "Menggunakan Asymmetry dalam Spectral Clustering of Trajectories," University of Minnesota, 2011, yang memberikan kode MATLAB untuk algoritma khusus.

andy_a
sumber
1

Anda dapat mengambil semacam mean (seperti mean aritmatika atau, untuk distribusi probabilitas, akar kuadrat dari divergensi Jensen-Shannon.)

cyborg
sumber
1

Anda harus melihat statistik melingkar (jika Anda ingin bekerja "dalam" minggu penyetelan)

Lionel
sumber
1

Jika fungsi jarak Anda bukan kernel Mercer yang valid, maka , di mana adalah matriks Gram. Dalam hal ini ingin co-clustering, juga disebut bi-clustering. Algoritma kelas ini menghasilkan indikator kluster secara bersamaan untuk baris dan kolom.XXTX

Contoh yang Anda berikan adalah hasil dari metrik jarak yang dipilih dengan buruk. Metrik jarak yang lebih baik adalah|days apart|

Umumnya fungsi jarak Anda harus menjadi kernel Mercer yang valid. Sebuah Mercer kernel berlaku adalah fungsi mengambil dua pengamatan yang terus menerus, simetris dan memiliki kovarians positif yang pasti matriks .xD

Jessica Collins
sumber