Mari kita katakan bahwa kita mendefinisikan jarak, yang bukan metrik , antara N item.
Berdasarkan jarak ini kami kemudian menggunakan pengelompokan hierarki Agglomerative .
Bisakah kita menggunakan masing-masing algoritma yang dikenal (tautan tunggal / maksimum / rata-rata dll), untuk mendapatkan hasil yang bermakna? Atau dengan kata lain, apa masalah dengan menggunakannya jika jaraknya bukan metrik?
Jawaban:
Persyaratan untuk jarak tergantung pada metode pengelompokan hierarkis. Metode tunggal, lengkap, rata-rata membutuhkan jarak menjadi no-negatif dan simetris. Metode ward, centroid, median membutuhkan jarak (euclidean) (yang bahkan lebih sempit daripada metrik) jarak untuk menghasilkan hasil yang bermakna secara geometris.
(Seseorang dapat memeriksa apakah matriks jaraknya adalah euclidean dengan memusatkannya dua kali lipat [lihat jawaban saya di sini ] dan melihat nilai eigen; jika tidak ada nilai eigen negatif yang ditemukan maka jarak melakukan konvergensi dalam ruang euclidean.)
sumber
Tidak, jaraknya tidak harus berupa metrik. Ia dapat, misalnya, menjadi ultrametrik:
Jarak ultrametrik yang diperoleh dari langkah-langkah berurutan dalam algoritma pengelompokan dapat direpresentasikan menggunakan dendrogram, yang mungkin Anda lihat dalam konteks ini.
sumber