Menggunakan korelasi sebagai metrik jarak (untuk pengelompokan hierarkis)

22

Saya ingin mengelompokkan data saya secara hierarkis, tetapi daripada menggunakan jarak Euclidean, saya ingin menggunakan korelasi. Juga, karena koefisien korelasi berkisar dari -1 hingga 1, dengan -1 dan 1 menunjukkan "peraturan bersama" dalam penelitian saya, saya memperlakukan -1 dan 1 sebagai d = 0. Jadi perhitungan saya adalah d = 1 - | r | d=1|r|

Saya baca di pertanyaan terpisah (tentang k-means), bahwa Anda harus mengkonversi r menjadi benar euclidean d menggunakan teorema kosinus: d=2(1r)

Apa cara paling akurat untuk mengubah korelasi menjadi jarak untuk pengelompokan hierarkis?

Megatron
sumber
3
Ya, salah satu yang mungkin - dan cara yang benar secara geometris - adalah rumus terakhir. Tetapi Anda dapat mengabaikan tanda jika itu masuk akal untuk Anda, sehingga d 2 = 2 ( 1 - | r | ) . Dalam kebanyakan kasus, Anda dapat menjatuhkan 2 dengan aman tanpa memengaruhi hasil pengelompokan. Jarak dapat diperlakukan sebagai euclidean kuadrat . Dalam hal ini benang itu dibahas apakah tindakan korelasi jarak-dikonversi adalah metrik jarak. rd2=2(1|r|)2
ttnphns
2
Juga, Anda tidak harus selalu mengubah menjadi ketidaksamaan linear seperti jarak euclidean. Tidak jarang orang melakukan pengelompokan berdasarkan r atau | r | seperti pada kesamaan, itu adalah kesamaan sudutrr|r|
ttnphns

Jawaban:

21

Persyaratan untuk pengelompokan hierarkis

Hierarchical clustering dapat digunakan dengan langkah-langkah kesamaan dan ketidaksamaan yang sewenang-wenang. (Sebagian besar alat mengharapkan perbedaan, tetapi akan memungkinkan nilai negatif - terserah Anda untuk memastikan apakah nilai kecil atau besar akan lebih disukai.).

Hanya metode berdasarkan centroid atau varians (seperti metode Ward) yang istimewa, dan harus digunakan dengan Euclidean kuadrat. (Untuk memahami alasannya, harap pelajari hubungan ini dengan seksama.)

Hubungan tunggal, hubungan rata-rata, hubungan lengkap tidak banyak terpengaruh, itu masih akan menjadi minimum / rata-rata / maksimum dari perbedaan berpasangan.

Korelasi sebagai ukuran jarak

Jika Anda memproses ulang data Anda ( n pengamatan, fitur p ) sedemikian rupa sehingga setiap fitur memiliki μ=0 dan σ=1 (yang melarang fitur konstan!), Maka korelasi berkurang menjadi cosinus:

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

Dalam kondisi yang sama, jarak Euclidean kuadrat juga berkurang menjadi cosinus:

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

Oleh karena itu, kecuali jika data Anda mengalami degenerasi, menggunakan korelasi untuk pengelompokan hierarkis harus baik-baik saja. Cukup praproses seperti dijelaskan di atas, lalu gunakan jarak Euclidean kuadrat.

Anony-Mousse
sumber
1
Only ward's method is special, and should be used with squared Euclidean. Bukan hanya Ward. Setiap metode penghitungan centroid atau penyimpangan dari centroid akan memerlukan jarak euclidean atau kuadrat euclidean (tergantung pada implementasinya), demi presisi geometris. Dengan hilangnya peringatan semacam itu dan karena, mereka dapat digunakan dengan jarak metrik lainnya. Metode-metode itu adalah centroid, "median", Ward's, varians (jangan dikelirukan dengan Ward!) Dan beberapa lainnya.
ttnphns
Terima kasih, saya sudah membuatnya lebih jelas. Saya tidak mengetahui variasi ini, saya hanya memikirkan satu / rata / lengkap / lingkungan.
Anony-Mousse
1
,dsayam