Saya memiliki 17 numerik dan 5 variabel biner (0-1), dengan 73 sampel dalam dataset saya. Saya perlu menjalankan analisis kluster. Saya tahu bahwa jarak Gower adalah metrik yang baik untuk kumpulan data dengan variabel campuran. Namun, saya tidak bisa mengerti bagaimana jarak Gower menghitung perbedaan antara variabel biner . Tampak bagi saya bahwa itu tidak berbeda dengan jarak Euclidean.
clustering
distance
mixed-type-data
Emrah Bilgiç
sumber
sumber
Gower
? stats.stackexchange.com/a/15313/3277Jawaban:
Bagaimana dengan atribut biner yang memiliki nilai "m" dan "f", untuk "pria" dan "wanita"?
Anda menyadari bahwa untuk variabel dicotomous semua Anda bisa keluar adalah "sama" atau "berbeda"? Perbedaan titik kunci antara jarak bukanlah jika nilainya 1 atau 0; tetapi bagaimana beberapa variabel digabungkan.
sumber
Gower distance menggunakan Manhattan untuk menghitung jarak antara datapoints kontinyu dan Dice untuk menghitung jarak antara datapoints kategoris
sumber