Saya ingin mengelompokkan data saya secara hierarkis, tetapi daripada menggunakan jarak Euclidean, saya ingin menggunakan korelasi. Juga, karena koefisien korelasi berkisar dari -1 hingga 1, dengan -1 dan 1 menunjukkan "peraturan bersama" dalam penelitian saya, saya memperlakukan -1 dan 1 sebagai d = 0. Jadi perhitungan saya adalah d = 1 - | r |
Saya baca di pertanyaan terpisah (tentang k-means), bahwa Anda harus mengkonversi r menjadi benar euclidean d menggunakan teorema kosinus:
Apa cara paling akurat untuk mengubah korelasi menjadi jarak untuk pengelompokan hierarkis?
Jawaban:
Persyaratan untuk pengelompokan hierarkis
Hierarchical clustering dapat digunakan dengan langkah-langkah kesamaan dan ketidaksamaan yang sewenang-wenang. (Sebagian besar alat mengharapkan perbedaan, tetapi akan memungkinkan nilai negatif - terserah Anda untuk memastikan apakah nilai kecil atau besar akan lebih disukai.).
Hanya metode berdasarkan centroid atau varians (seperti metode Ward) yang istimewa, dan harus digunakan dengan Euclidean kuadrat. (Untuk memahami alasannya, harap pelajari hubungan ini dengan seksama.)
Hubungan tunggal, hubungan rata-rata, hubungan lengkap tidak banyak terpengaruh, itu masih akan menjadi minimum / rata-rata / maksimum dari perbedaan berpasangan.
Korelasi sebagai ukuran jarak
Jika Anda memproses ulang data Anda (n pengamatan, fitur p ) sedemikian rupa sehingga setiap fitur memiliki μ=0 dan σ=1 (yang melarang fitur konstan!), Maka korelasi berkurang menjadi cosinus:
Dalam kondisi yang sama, jarak Euclidean kuadrat juga berkurang menjadi cosinus:
Oleh karena itu, kecuali jika data Anda mengalami degenerasi, menggunakan korelasi untuk pengelompokan hierarkis harus baik-baik saja. Cukup praproses seperti dijelaskan di atas, lalu gunakan jarak Euclidean kuadrat.
sumber
Only ward's method is special, and should be used with squared Euclidean
. Bukan hanya Ward. Setiap metode penghitungan centroid atau penyimpangan dari centroid akan memerlukan jarak euclidean atau kuadrat euclidean (tergantung pada implementasinya), demi presisi geometris. Dengan hilangnya peringatan semacam itu dan karena, mereka dapat digunakan dengan jarak metrik lainnya. Metode-metode itu adalah centroid, "median", Ward's, varians (jangan dikelirukan dengan Ward!) Dan beberapa lainnya.