Bagaimana menafsirkan dendrogram dari analisis klaster hierarkis

25

Perhatikan contoh R di bawah ini:

plot( hclust(dist(USArrests), "ave") )
  1. Apa sebenarnya arti dari sumbu y "Tinggi"?

  2. Melihat North Carolina dan California (bukan di sebelah kiri). Apakah California "lebih dekat" ke Carolina Utara daripada Arizona? Bisakah saya membuat interpretasi ini?

  3. Hawaii (kanan) bergabung dengan cluster agak terlambat. Saya dapat melihat ini karena "lebih tinggi" dari negara bagian lain. Secara umum bagaimana saya bisa menafsirkan fakta bahwa label "lebih tinggi" atau "lebih rendah" di dendrogram dengan benar?

masukkan deskripsi gambar di sini

Ric
sumber
1
Jawaban dalam ?hclust.
Scortchi
3
Posisi label tidak memiliki arti. Jika Anda tidak memahami sumbu y maka aneh bahwa Anda berada di bawah kesan untuk memahami dengan baik pengelompokan hierarkis.
Stéphane Laurent
1
Perlu diketahui juga bahwa pengelompokan hierarki umumnya tidak memberikan Anda klasifikasi hierarki (pohon) . Metode rata-rata (yang Anda gunakan) tidak, khususnya. Lihat poin terakhir di sini .
ttnphns
1
Posisi label memiliki sedikit arti. Semakin tinggi posisinya, maka objek tersebut akan terhubung dengan yang lain, dan karenanya lebih mirip outlier atau tersesat.
ttnphns
3
@ StéphaneLaurent Anda benar bahwa ini terdengar seperti kontradiksi. Di sana saya masih berpikir saya bisa memadukan data dendogram yang saya kenal dengan baik. Lebih jauh, posisi lables memiliki sedikit makna sebagaimana ditunjukkan oleh ttnphns dan Peter Flom. Akhirnya komentar Anda tidak konstruktif bagi saya.
Ric

Jawaban:

17

1) Sumbu y adalah ukuran kedekatan baik titik data individu atau cluster.

2) California dan Arizona sama-sama jauh dari Florida karena CA dan AZ berada dalam kelompok sebelum bergabung dengan FL.

3) Hawaii agak terlambat bergabung; sekitar 50. Ini berarti bahwa cluster yang bergabung lebih dekat bersama sebelum HI bergabung. Tapi tidak jauh lebih dekat. Perhatikan bahwa cluster yang ia gabungkan (yang berada jauh di sebelah kanan) hanya terbentuk pada sekitar 45. Fakta bahwa HI bergabung dengan sebuah cluster lebih lambat daripada negara lain hanya berarti bahwa (menggunakan metrik apa pun yang Anda pilih) HI tidak terlalu dekat dengan setiap negara bagian tertentu.

Peter Flom - Pasang kembali Monica
sumber
Jadi "tinggi" memberi saya ide tentang nilai kriteria tautan (seperti di sini ) - dalam kasus saya, jarak rata-rata cluster satu sama lain. Apakah ini benar? Terima kasih!
Ric
Bukankah sumbu y adalah ukuran dis kesamaan antara cluster dan titik? Yaitu negatif kedekatan, karena terbesar ketika hal-hal yang paling berbeda, bukan sebaliknya @PeterFlom
Felipe Almeida
21

Saya memiliki pertanyaan yang sama ketika saya mencoba belajar pengelompokan hierarkis dan saya menemukan pdf berikut sangat berguna.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Bahkan jika Richard sudah jelas tentang prosedur, orang lain yang menelusuri pertanyaan mungkin dapat menggunakan pdf, itu sangat sederhana dan jelas esp bagi mereka yang tidak memiliki latar belakang matematika yang cukup.

Srmsbrmnm
sumber
3
Hanya ingin mengulang kembali bahwa pdf yang tertaut sangat baik.
Heisenberg
Referensi: Klimberg, Ronald K. dan BD McCullough. 2013. "Bab 7: Analisis Cluster Hierarkis." Di Dasar-dasar analitik prediktif dengan JMP. Cary, NC: SAS Institute.
jay.sf
1

Sumbu horizontal mewakili cluster. Skala vertikal pada dendrogram mewakili jarak atau perbedaan. Setiap bergabung (fusi) dari dua kelompok diwakili pada diagram oleh pemisahan garis vertikal menjadi dua garis vertikal. Posisi vertikal dari perpecahan, yang ditunjukkan oleh batang pendek memberikan jarak (perbedaan) antara kedua kelompok.

Babaasa
sumber