Perhatikan contoh R di bawah ini:
plot( hclust(dist(USArrests), "ave") )
Apa sebenarnya arti dari sumbu y "Tinggi"?
Melihat North Carolina dan California (bukan di sebelah kiri). Apakah California "lebih dekat" ke Carolina Utara daripada Arizona? Bisakah saya membuat interpretasi ini?
Hawaii (kanan) bergabung dengan cluster agak terlambat. Saya dapat melihat ini karena "lebih tinggi" dari negara bagian lain. Secara umum bagaimana saya bisa menafsirkan fakta bahwa label "lebih tinggi" atau "lebih rendah" di dendrogram dengan benar?
?hclust
.Jawaban:
1) Sumbu y adalah ukuran kedekatan baik titik data individu atau cluster.
2) California dan Arizona sama-sama jauh dari Florida karena CA dan AZ berada dalam kelompok sebelum bergabung dengan FL.
3) Hawaii agak terlambat bergabung; sekitar 50. Ini berarti bahwa cluster yang bergabung lebih dekat bersama sebelum HI bergabung. Tapi tidak jauh lebih dekat. Perhatikan bahwa cluster yang ia gabungkan (yang berada jauh di sebelah kanan) hanya terbentuk pada sekitar 45. Fakta bahwa HI bergabung dengan sebuah cluster lebih lambat daripada negara lain hanya berarti bahwa (menggunakan metrik apa pun yang Anda pilih) HI tidak terlalu dekat dengan setiap negara bagian tertentu.
sumber
Saya memiliki pertanyaan yang sama ketika saya mencoba belajar pengelompokan hierarkis dan saya menemukan pdf berikut sangat berguna.
http://www.econ.upf.edu/~michael/stanford/maeb7.pdf
Bahkan jika Richard sudah jelas tentang prosedur, orang lain yang menelusuri pertanyaan mungkin dapat menggunakan pdf, itu sangat sederhana dan jelas esp bagi mereka yang tidak memiliki latar belakang matematika yang cukup.
sumber
Sumbu horizontal mewakili cluster. Skala vertikal pada dendrogram mewakili jarak atau perbedaan. Setiap bergabung (fusi) dari dua kelompok diwakili pada diagram oleh pemisahan garis vertikal menjadi dua garis vertikal. Posisi vertikal dari perpecahan, yang ditunjukkan oleh batang pendek memberikan jarak (perbedaan) antara kedua kelompok.
sumber