Memilih metode tautan yang tepat untuk pengelompokan hierarkis

33

Saya melakukan pengelompokan hierarkis pada data yang telah saya kumpulkan dan diproses dari dump data reddit di Google BigQuery.

Proses saya adalah sebagai berikut:

  • Dapatkan 1000 posting terbaru di / r / politik
  • Kumpulkan semua komentar
  • Memproses data dan menghitung n x mmatriks data (n: pengguna / sampel, m: posting / fitur)
  • Hitung matriks jarak untuk pengelompokan hierarkis
  • Pilih metode tautan dan lakukan pengelompokan hierarkis
  • Plot data sebagai dendrogram

Pertanyaan saya adalah, bagaimana cara menentukan metode tautan terbaik apa ? Saat ini saya menggunakan Wardtapi bagaimana saya tahu jika saya harus menggunakan single, complete, average, dll?

Saya sangat baru dalam hal ini tetapi saya tidak dapat menemukan jawaban online yang jelas karena saya tidak yakin ada satu. Jadi, apa ide yang bagus untuk aplikasi saya? Perhatikan bahwa datanya relatif jarang dalam arti bahwa n x mmatriks memiliki banyak nol (kebanyakan orang tidak mengomentari lebih dari beberapa posting).

Kevin Eger
sumber
Mengesampingkan masalah keterkaitan spesifik, apa yang akan "terbaik" artinya dalam konteks Anda?
gung - Reinstate Monica
Yang terbaik bagi saya adalah menemukan cara paling logis untuk menautkan jenis data saya. yaitu: pendekatan apa yang secara akurat mendefinisikan apa yang dimaksud dengan "jarak" dalam fitur saya.
Kevin Eger
2
Kevin, Silakan lihat di ini jawaban dan sangat baru-baru ini pertanyaan . Anda akan belajar bahwa pertanyaan ("metode apa yang digunakan") yang Anda naik bukanlah pertanyaan yang mudah. Anda harus membaca literatur tentang pengelompokan (setidaknya hierarkis) sebelum Anda dapat melihat perbedaan antara metode dan dapat memilih. Analisis data tidak diperlakukan secara tidak langsung.
ttnphns
1
@ttnphns, terima kasih atas tautannya - adalah bacaan yang bagus dan saya akan mempertimbangkannya.
Kevin Eger

Jawaban:

58

Ikhtisar metode

Referensi singkat tentang beberapa metode keterkaitan analisis hirarki aglomeratif klaster (HAC).

Versi dasar dari algoritma HAC adalah satu generik; itu sama dengan memperbarui, pada setiap langkah, dengan rumus yang dikenal sebagai rumus Lance-Williams, perkiraan antara kluster yang muncul (digabung dua) dan semua kluster lainnya (termasuk objek tunggal) yang ada sejauh ini. Ada implementasi yang tidak menggunakan rumus Lance-Williams. Tetapi menggunakannya adalah mudah: memungkinkan satu kode berbagai metode hubungan dengan template yang sama.

Rumus perulangan mencakup beberapa parameter (alfa, beta, gamma). Bergantung pada metode tautan, parameter diatur secara berbeda sehingga formula yang terbuka menggunakan tampilan tertentu. Banyak teks pada HAC menunjukkan formula, pandangan spesifik metode dan menjelaskan metode. Saya akan merekomendasikan artikel oleh Janos Podani sebagai sangat menyeluruh.

Ruang dan kebutuhan untuk metode yang berbeda timbul dari kenyataan bahwa kedekatan (jarak atau kesamaan) antara dua cluster atau antara cluster dan objek tunggal dapat dirumuskan dalam berbagai cara. HAC bergabung pada setiap langkah dua kelompok atau titik yang paling dekat, tetapi bagaimana menghitung kedekatan tersebut di muka bahwa matriks kedekatan input didefinisikan antara objek tunggal saja, adalah masalah untuk dirumuskan.

Jadi, metode berbeda dalam hal bagaimana mereka mendefinisikan kedekatan antara dua kelompok di setiap langkah. "Koefisien Koefisien" (keluaran dalam jadwal / sejarah aglomerasi dan pembentukan sumbu "Y" pada dendrogram) hanyalah kedekatan antara dua kluster yang digabungkan pada langkah tertentu.

  • Metode hubungan tunggal atau tetangga terdekat . Kedekatan antara dua kelompok adalah kedekatan antara dua objek terdekat mereka. Nilai ini adalah salah satu nilai dari matriks input. The metafora konseptual ini dibangun cluster, pola dasar, adalah spektrum atau rantai . Rantai bisa lurus atau lengkung, atau bisa seperti tampilan "kepingan salju" atau "amuba". Dua anggota kluster yang paling berbeda dapat menjadi sangat berbeda dibandingkan dengan dua yang paling mirip. Metode tautan tunggal mengontrol hanya kesamaan tetangga terdekat.

  • Metode hubungan lengkap atau tetangga terjauh . Kedekatan antara dua kelompok adalah kedekatan antara dua objek mereka yang paling jauh. Nilai ini adalah salah satu nilai dari matriks input. Metafora dari kluster yang dibangun ini adalah lingkaran (dalam arti, oleh hobi atau plot) di mana dua yang paling jauh dari masing-masing anggota lainnya tidak bisa jauh lebih berbeda daripada pasangan yang cukup berbeda lainnya (seperti dalam lingkaran). Cluster-cluster seperti itu merupakan kontur "kompak" menurut batasnya, tetapi mereka tidak harus padat di dalamnya.

  • Metode pertalian rata-rata antar-kelompok (UPGMA). Kedekatan antara dua kelompok adalah rata-rata aritmatika dari semua perkiraan antara objek dari satu, di satu sisi, dan objek dari yang lain, di sisi lain. Metafora cluster yang dibangun ini cukup generik, hanya kelas bersatu atau kolektif; dan metode ini sering mengatur default dalam paket pengelompokan hierarkis. Cluster bentuk dan garis besar dapat diproduksi.

  • Rata-rata sederhana , atau metode pertautan rata-rata antar kelompok (WPGMA) adalah modifikasi sebelumnya. Kedekatan antara dua kelompok adalah rata-rata aritmatika dari semua perkiraan antara objek satu, di satu sisi, dan objek dari yang lain, di sisi lain; sementara subcluster yang masing-masing dari dua cluster ini digabungkan baru-baru ini telah menyamakan pengaruh pada kedekatan itu - bahkan jika subclusters berbeda dalam jumlah objek.

  • Metode linkage rata-rata dalam grup (MNDIS). Kedekatan antara dua kelompok adalah rata-rata aritmatika dari semua proksimitas dalam kelompok gabungannya. Metode ini merupakan alternatif untuk UPGMA. Biasanya akan kalah dalam hal kepadatan cluster, tapi kadang-kadang akan mengungkap bentuk cluster yang tidak akan UPGMA.

  • Metode Centroid (UPGMC). Kedekatan antara dua kelompok adalah kedekatan antara sentroid geometrisnya: [kuadrat] jarak euclidean di antara keduanya. Metafora cluster yang dibangun ini adalah kedekatan platform (politik). Seperti di partai-partai politik, kelompok-kelompok seperti itu dapat memiliki fraksi atau "faksi", tetapi kecuali jika tokoh sentralnya terpisah satu sama lain, serikat pekerja itu konsisten. Cluster dapat bervariasi menurut garis besar.

  • Median , atau metode centroid kesetimbangan (WPGMC) adalah modifikasi sebelumnya. Kedekatan antara dua cluster adalah kedekatan antara centroid geometris mereka ([kuadrat] jarak euclidean di antara mereka); sementara centroid didefinisikan sehingga sub-cluster yang mana masing-masing dari dua cluster ini digabungkan baru-baru ini telah menyamakan pengaruh pada centroid-nya - bahkan jika sub-cluster berbeda dalam jumlah objek.

  • SS12-(SS1+SS2)2. Secara intuitif, suatu tipe adalah awan yang lebih padat dan lebih konsentris terhadap bagian tengahnya, sedangkan titik-titik marginalnya sedikit dan dapat tersebar secara relatif bebas.

Beberapa di antara metode yang kurang dikenal (lihat Podany J. Metode pengelompokan kombinatorial baru // Vegetatio, 1989, 81: 61-77.) [Juga diterapkan oleh saya sebagai makro SPSS yang ditemukan di halaman web saya]:

  • SS122

  • Metode peningkatan varians minimal (MIVAR). Kedekatan antara dua kluster adalah besarnya dimana kuadrat rata-rata dalam kluster bersama mereka akan lebih besar dari yang tertimbang (dengan jumlah objek) rata-rata kuadrat rata-rata dalam dua klaster ini: M.S12-(n1M.S1+n2M.S2)/(n1+n2)=[SS12-(SS1+SS2)]/(n1+n2). (Antara dua objek tunggal kuantitas ini = kuadrat jarak euclidean /4.)

  • Metode varians minimal (MNVAR). Kedekatan antara dua cluster adalah rata-rata kuadrat dalam kluster bersama mereka:M.S12=SS12/(n1+n2). (Antara dua objek tunggal kuantitas ini = kuadrat jarak euclidean /4.).

5 metode pertama memungkinkan tindakan kedekatan (kesamaan atau jarak) dan hasilnya akan, tentu saja, tergantung pada ukuran yang dipilih.

6 metode terakhir membutuhkan jarak; dan sepenuhnya benar hanya akan menggunakan jarak euclidean kuadrat dengan mereka, karena metode ini menghitung centroid dalam ruang euclidean. Oleh karena itu jarak harus euclidean demi kebenaran geometrik (6 metode ini disebut metode geometri keterkaitan bersama ). Paling buruk, Anda dapat memasukkan metrik lainnyajarak dalam mengakui lebih heuristik, analisis yang kurang ketat. Sekarang tentang itu "kuadrat". Perhitungan centroid dan penyimpangan dari mereka paling nyaman secara matematis / program untuk tampil pada jarak kuadrat, itu sebabnya paket HAC biasanya perlu diinput dan disetel untuk memproses yang kuadrat. Namun, ada implementasi - sepenuhnya setara namun sedikit lebih lambat - berdasarkan input jarak nonsquared dan membutuhkannya; lihat misalnya implementasi "Ward-2" untuk metode Ward. Anda harus berkonsultasi dengan dokumentasi program pengelompokan Anda untuk mengetahui yang - kuadrat atau tidak - jarak yang diharapkan pada input ke "metode geometrik" untuk melakukannya dengan benar.

Metode MNDIS, MNSSQ, dan MNVAR memerlukan langkah-langkah, selain hanya memperbarui formula Lance-Williams, untuk menyimpan statistik dalam-cluster (yang tergantung pada metode).

Metode yang paling sering digunakan dalam studi di mana cluster diharapkan menjadi awan bulat lebih atau kurang padat, - adalah metode keterkaitan rata-rata, metode keterkaitan lengkap, dan metode Ward.

Metode Ward adalah yang paling dekat, dengan properti dan efisiensi, dengan K-means clustering; mereka berbagi fungsi tujuan yang sama - minimalisasi SS dalam-klaster yang dikumpulkan "pada akhirnya". Tentu saja, K-means (menjadi iteratif dan jika disediakan dengan centroid awal yang baik) biasanya merupakan pengurang yang lebih baik daripada Ward. Namun, bagi saya Ward sedikit lebih akurat daripada K-means dalam mengungkap cluster dengan ukuran fisik yang tidak merata (varian) atau cluster yang dilemparkan tentang ruang yang sangat tidak teratur. Metode MIVAR aneh bagi saya, saya tidak bisa membayangkan kapan bisa direkomendasikan, tidak menghasilkan cluster yang cukup padat.

Metode centroid, median, peningkatan varians minimal - mungkin kadang-kadang memberikan apa yang disebut pembalikan : sebuah fenomena ketika dua cluster yang bergabung pada beberapa langkah tampak lebih dekat satu sama lain daripada pasangan cluster yang digabungkan sebelumnya. Itu karena metode ini bukan milik yang disebut ultrametrik. Situasi ini tidak nyaman tetapi secara teori OK.

Metode single linkage dan centroid termasuk yang disebut ruang kontrak , atau "rantai". Itu berarti - secara kasar - bahwa mereka cenderung untuk melampirkan objek satu per satu ke cluster, dan karenanya mereka menunjukkan pertumbuhan kurva yang relatif lancar "% dari objek yang dikelompokkan". Sebaliknya, metode tautan lengkap, Ward's, jumlah-kuadrat, peningkatan varians, dan varians umumnya mendapatkan bagian yang cukup besar dari objek yang dikelompokkan bahkan pada langkah-langkah awal, dan kemudian melanjutkan penggabungan mereka - oleh karena itu kurva mereka “% dari objek yang dikelompokkan” ”Tajam dari langkah pertama. Metode ini disebut pelebaran ruang . Metode lain termasuk di antaranya.

Versi fleksibel . Dengan menambahkan parameter tambahan ke dalam rumus Lance-Willians adalah mungkin untuk membuat metode menjadi self-tuning khusus pada langkah-langkahnya. Parameter membawa koreksi untuk yang dihitung kedekatan antar-cluster, yang tergantung pada ukuran (jumlah kekompakan) dari cluster. Arti dari parameter adalah membuat metode aglomerasi lebih banyak dilatasi ruang atau kontrak ruang daripada metode standar ditakdirkan untuk menjadi. Implementasi fleksibilitas yang paling terkenal sejauh ini adalah dengan metode hubungan rata-rata UPGMA dan WPGMA (Belbin, L. et al. Perbandingan Dua Pendekatan terhadap Pengelompokan Beta-Fleksibel // Penelitian Perilaku Multivariat, 1992, 27, 417-433. ).

Dendrogram. Pada sumbu dendrogram "Y", biasanya ditampilkan adalah kedekatan antara cluster penggabungan - sebagaimana ditentukan oleh metode di atas. Oleh karena itu, misalnya, dalam metode centroid jarak kuadrat biasanya diukur (pada akhirnya, itu tergantung pada paket dan pilihannya) - beberapa penelitian tidak menyadarinya. Juga, berdasarkan tradisi, dengan metode berdasarkan peningkatan nondensitas, seperti Ward, biasanya ditampilkan pada dendrogram adalah nilai kumulatif - lebih cepat untuk alasan kenyamanan daripada yang teoritis. Dengan demikian, (dalam banyak paket) koefisien diplot dalam metode Ward mewakili keseluruhan, di seluruh cluster, dalam jumlah cluster-cluster yang diamati pada saat langkah tertentu.

Orang harus menahan diri untuk tidak menilai metode tautan mana yang "lebih baik" untuk datanya dengan membandingkan penampilan dendrogram: tidak hanya karena tampilannya berubah ketika Anda mengubah modifikasi koefisien yang Anda plot di sana - seperti yang baru saja dijelaskan, - tetapi karena tampilan akan berbeda bahkan pada data tanpa cluster.

Untuk memilih metode "benar"

Tidak ada kriteria tunggal . Beberapa pedoman bagaimana cara memilih metode analisis klaster (termasuk metode keterkaitan dalam HAC sebagai kasus tertentu) diuraikan dalam jawaban ini dan seluruh utas di dalamnya.

ttnphns
sumber
1

Korelasi antara matriks jarak dan jarak cophenetic adalah satu metrik untuk membantu menilai hubungan pengelompokan mana yang akan dipilih. Dari ?cophenetic:

Dapat dikatakan bahwa dendrogram adalah ringkasan yang tepat dari beberapa data jika korelasi antara jarak asli dan jarak cophenetic tinggi.

Penggunaan cor(dist,cophenetic(hclust(dist)))metrik pemilihan tautan ini dirujuk dalam hal 38 vegan sketsa ini .

Lihat contoh kode di bawah ini:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

Kami melihat bahwa korelasi untuk averagedan completesangat mirip, dan dendogram mereka tampak sangat mirip. Korelasi untuk wardini mirip dengan averagedan completetetapi dendogram terlihat cukup berbeda. singleketerkaitan melakukan hal sendiri. Penilaian profesional terbaik dari pakar subjek, atau diutamakan terhadap tautan tertentu di bidang minat mungkin harus mengesampingkan hasil numerik dari cor().

kakarot
sumber