Pertanyaan:
Saya memiliki matriks korelasi yang besar. Alih-alih mengelompokkan korelasi individu, saya ingin mengelompokkan variabel berdasarkan korelasi mereka satu sama lain, yaitu jika variabel A dan variabel B memiliki korelasi yang sama dengan variabel C ke Z, maka A dan B harus menjadi bagian dari cluster yang sama. Contoh kehidupan nyata yang baik dari ini adalah kelas aset yang berbeda - korelasi kelas aset intra lebih tinggi daripada korelasi kelas aset antar.
Saya juga mempertimbangkan pengelompokan variabel dalam hal hubungan stregth di antara mereka, misalnya ketika korelasi antara variabel A dan B mendekati 0, mereka bertindak lebih atau kurang secara independen. Jika tiba-tiba beberapa kondisi yang mendasarinya berubah dan korelasi yang kuat muncul (positif atau negatif), kita dapat menganggap kedua variabel ini sebagai milik kelompok yang sama. Jadi alih-alih mencari korelasi positif, orang akan mencari hubungan versus tidak ada hubungan. Saya kira analogi dapat berupa sekelompok partikel bermuatan positif dan negatif. Jika muatan jatuh ke 0, partikel melayang menjauh dari cluster. Namun, muatan positif dan negatif menarik partikel ke kluster yang bercahaya.
Saya minta maaf jika beberapa dari ini tidak terlalu jelas. Tolong beri tahu saya, saya akan mengklarifikasi detail spesifik.
sumber
Jawaban:
Berikut adalah contoh sederhana dalam R menggunakan
bfi
dataset: bfi adalah dataset dari 25 item tes kepribadian yang disusun sekitar 5 faktor.Analisis cluster hiearchical menggunakan jarak euclidan antara variabel berdasarkan korelasi absolut antara variabel dapat diperoleh seperti:
Dendrogram menunjukkan bagaimana item umumnya mengelompok dengan item lain sesuai dengan pengelompokan berteori (misalnya, N (Neuroticism) kelompok item bersama-sama). Ini juga menunjukkan bagaimana beberapa item dalam cluster lebih mirip (misalnya, C5 dan C1 mungkin lebih mirip daripada C5 dengan C3). Ini juga menunjukkan bahwa N cluster kurang mirip dengan cluster lain.
Atau Anda dapat melakukan analisis faktor standar seperti:
sumber
Ketika Korelasi Clustering penting untuk tidak menghitung jarak dua kali. Ketika Anda mengambil matriks korelasi Anda pada dasarnya membuat perhitungan jarak. Anda akan ingin mengubahnya menjadi jarak yang benar dengan mengambil 1 - nilai absolut.
Ketika Anda pergi untuk mengkonversi matriks ini ke objek jarak, jika Anda menggunakan fungsi dist Anda akan mengambil jarak antara korelasi Anda. Alih-alih, Anda ingin menggunakan
as.dist()
fungsi yang hanya akan mengubah jarak yang telah Anda hitung menjadi sebuah"dist"
objek.Menerapkan metode ini pada contoh Alglim
menghasilkan dendroggram yang berbeda
sumber