Saya memiliki matriks kovariansi dan ingin variabel partisi ke k cluster menggunakan hirarki pengelompokan (misalnya, untuk memilah matriks kovarians).
Apakah ada fungsi jarak yang khas antara variabel (yaitu antara kolom / baris dari matriks kovarians kuadrat)?
Atau jika ada lebih banyak, apakah ada referensi yang bagus tentang topik tersebut?
clustering
covariance
distance-functions
distance
Piotr Migdal
sumber
sumber
Jawaban:
Kovarian (atau korelasi atau kosinus) dapat dengan mudah dan alami diubah menjadi jarak euclidean dengan menggunakan hukum cosinus , karena itu adalah produk skalar (= kesamaan berbasis sudut) di ruang euclidean. Mengetahui kovarians antara dua variabel i dan j serta varians mereka secara otomatis menyiratkan mengetahui d antara variabel: . (Itu d 2 i jd2saya j= σ2saya+ σ2j- 2 c o vsaya j d2saya j berbanding lurus dengan jarak Euclidean kuadrat yang biasa : Anda memperoleh yang terakhir jika Anda menggunakan jumlah-dari-kuadrat dan jumlah-produk-silang di tempat varian dan kovarians. Kedua variabel harus tentu saja berpusat pada awalnya: berbicara tentang "kovarian" adalah alias memikirkan data dengan cara yang dihapus.)
Catatan, rumus ini berarti bahwa kovarians negatif adalah jarak yang lebih besar daripada kovarians positif (dan ini memang merupakan kasus dari sudut pandang geometri, yaitu ketika variabel dilihat sebagai vektor dalam ruang subjek ). Jika Anda tidak ingin tanda kovarians berperan, hapus tanda negatif. Mengabaikan tanda negatif bukanlah operasi "menambal dengan tangan" dan dibenarkan, bila diperlukan: jika matriks cov pasti positif, matriks abs (cov) juga akan pasti positif; dan karenanya jarak yang diperoleh dengan rumus di atas akan menjadi jarak euclidean yang sebenarnya (jarak euclidean adalah semacam jarak metrik tertentu ).
Jarak Euclidean bersifat universal dalam hal pengelompokan hierarkis : metode pengelompokan seperti apa pun itu berlaku dengan euclidean atau kuadrat euclidean d . Tetapi beberapa metode, misalnya hubungan rata-rata atau hubungan lengkap, dapat digunakan dengan perbedaan atau kesamaan apa pun (bukan hanya jarak metrik). Jadi Anda dapat menggunakan metode tersebut secara langsung dengan matriks cov atau abs (cov) atau - hanya misalnya - dengan max (abs (cov)) - matriks jarak abs (cov) . Tentu saja, hasil pengelompokan berpotensi tergantung pada sifat persis dari (dis) kesamaan yang digunakan.
sumber
Mengapa tidak menggunakan matriks korelasi untuk melakukan pengelompokan? Dengan asumsi variabel acak Anda terpusat, dengan menghitung korelasi antara variabel Anda menghitung jarak kesamaan cosinus . Jarak ini juga disebutkan dalam tautan Anda. Jarak ini dapat digunakan untuk pengelompokan hierarkis. Semakin kecil 1 - | cosine similarity |, semakin mirip variabel Anda.
sumber