Rupanya, dalam pengelompokan hierarkis di mana ukuran jarak adalah jarak Euclidean, data harus terlebih dahulu dinormalisasi atau distandarisasi untuk mencegah kovariat dengan varian tertinggi dari penggerak pengelompokan. Kenapa ini? Bukankah fakta ini diinginkan?
sumber
Jika Anda tidak membakukan data Anda, maka variabel yang diukur dalam unit bernilai besar akan mendominasi ketidaksamaan yang dihitung dan variabel yang diukur dalam unit bernilai kecil akan berkontribusi sangat sedikit.
Kami dapat memvisualisasikan ini dalam R melalui:
dist1
berisi jarak Euclidean untuk 100 pengamatan berdasarkan ketiga variabel sementaradist2
berisi jarak Euclidean berdasarkanvar1
sendirian.Perhatikan seberapa mirip distribusi jaraknya, yang menunjukkan sedikit kontribusi dari
var2
danvar3
, dan jarak sebenarnya sangat mirip:Jika kita membakukan data
maka ada perubahan besar dalam jarak hanya berdasarkan
var1
dan yang didasarkan pada ketiga variabel:Karena pengelompokan hierarkis menggunakan jarak ini, apakah diinginkan untuk distandarisasi atau tidak akan tergantung pada jenis data / variabel yang Anda miliki dan apakah Anda ingin hal-hal besar mendominasi jarak dan karenanya dominan pembentukan pengelompokan. Jawabannya adalah spesifik domain dan spesifik data-set.
sumber
Anony-Mousse memberikan jawaban yang sangat baik . Saya hanya akan menambahkan bahwa metrik jarak yang masuk akal akan tergantung pada bentuk distribusi multivarian. Untuk Gaussian multivariat, jarak Mahalanobis adalah ukuran yang tepat.
sumber