Membandingkan dendrogram pengelompokan hierarkis yang diperoleh dengan jarak & metode yang berbeda

Untuk membandingkan kesamaan dua struktur hierarkis (seperti pohon), langkah-langkah yang didasarkan pada ide korelasi cophenetic digunakan. Tetapi apakah benar untuk melakukan perbandingan dendrogram untuk memilih metode "benar" atau mengukur jarak dalam pengelompokan hierarkis?

Ada beberapa poin - hambatan tersembunyi - mengenai analisis klaster hierarkis yang saya pegang cukup penting :

Jangan pernah membandingkan (untuk memilih metode yang memberikan partisi lebih kuat) dendrogram yang diperoleh dengan metode aglomerasi yang berbeda secara visual. Itu tidak akan memberitahu metode mana yang "lebih baik" pada saat itu. Setiap metode memiliki tampilan pohon "prototypical" sendiri: pohon akan berbeda secara konsisten bahkan ketika data tidak memiliki struktur cluster atau memiliki struktur cluster acak. (Dan saya tidak berpikir ada standarisasi atau ukuran yang akan menghilangkan perbedaan intrinsik ini.). Namun, Anda dapat membandingkan tampilan dendrogram dari hasil yang dihasilkan oleh metode yang sama tetapi data berbeda. Maxim: langsung, perbandingan penampilan dendrogram setelah metode yang berbeda tidak dapat diterima .
Jangan memutuskan jumlah kelompok (yaitu di mana menebang pohon) dengan melihat dendrogram metode Ward . Di Ward, pohon menunjukkan pertumbuhan sumatif, bukan rata-rata, koefisien kolerasi; dan konsekuensinya adalah karena cluster selanjutnya lebih besar dengan jumlah poin, cluster kemudian terlihat menyesatkan "lebih baik" di pohon. Untuk menstandardisasi dendrogramm Ward secara tepat, bagilah pertumbuhan koefisien pada setiap langkah dengan jumlah keseluruhan poin dalam dua kluster yang digabungkan (dendrogram Ward yang terstandarisasi, mungkin sulit untuk diimplementasikan secara grafis). $^1$ Maxim: memilih tingkat potong dengan merenungkan penampilan dendrogram, sementara mungkin, bukan metode terbaik untuk memilih partisi, dan untuk beberapa metode mungkin menyesatkan . Disarankan untuk mengandalkan beberapa kriteria pengelompokan internal formal sebagai gantinya.
Meskipun tidak ada yang dapat melarang Anda "bereksperimen" dengan pengukuran jarak atau metode aglomerasi, lebih baik memilih jarak dan metode secara sadar , bukan usaha yang buta. Jarak harus mencerminkan aspek perbedaan yang Anda minati, dan metode - orang harus sadar - menyiratkan arketipe spesifik dari kluster (misalnya, metafora klaster Ward adalah, saya akan mengatakan, ketik ; klaster setelah keterkaitan lengkap akan menjadi lingkaran [oleh hobi atau plot]; kluster setelah hubungan tunggal akan menjadi spektrum [rantai]; kluster setelah metode centroid akan menjadi kedekatan platform [politik]; klaster sambungan rata-rata secara konseptual paling tidak terdiferensiasi dan akan secara umum bersatu kelas ).
Beberapa metode membutuhkan pengukuran jarak yang tepat dan / atau tipe data yang benar. Ward dan centroid, misalnya, secara logis membutuhkan jarak euclidean (kuadrat) - karena metode ini melibatkan perhitungan centroid dalam ruang euclidean. Dan perhitungan centroid geometris tidak sesuai dengan, misalnya, data biner; data harus berskala / kontinu. Pepatah: asumsi data / jarak / metode dan korespondensi sangat penting dan bukan pertanyaan yang mudah.
Preprocessing (seperti pemusatan, penskalaan, dan bentuk lain dari transformasi variabel / fitur) sebelum perhitungan matriks jarak dan melakukan pengelompokan juga merupakan pertanyaan yang sangat penting. Ini secara dramatis dapat mempengaruhi hasil. Pikirkan apa preprocessing dapat membantu Anda dan akan masuk akal dari sudut pandang interpretasi. Juga, jangan pernah malu untuk memeriksa data Anda dengan cermat sebelum mencoba melakukan analisis kluster.
Tidak semua metode pengelompokan aglomeratif dapat sama-sama dilihat memberi Anda klasifikasi hierarkis ... atas dasar filosofis. Sebagai contoh, metode centroid memang memberikan hirarki dalam arti, karena pusat klaster adalah fitur yang muncul dan menentukan dari kluster secara keseluruhan , dan penggabungan kluster didorong oleh fitur tersebut. Link lengkap, di sisi lain, "menolak" kedua subclusters ketika menggabungkan mereka - berdasarkan jarak antara objek individu keduanya. Dengan demikian, dendrogram hubungan lengkap hanyalah sejarah koleksi dan bukan semacam taksonomi orangtua-anak .Maxim: analisis klaster aglomerasi hierarkis, umumnya, mengharapkan Anda membuat partisi berdasarkan hasilnya, daripada melihat hasilnya sebagai taksonomi hierarkis.
Hierarchical clustering adalah algoritma serakah khas yang membuat pilihan terbaik di antara alternatif yang muncul pada setiap langkah dengan harapan untuk mendekati solusi optimal pada akhirnya. Namun, pilihan "terbaik" yang muncul pada langkah tingkat tinggi cenderung lebih buruk daripada optimal global yang secara teoritis mungkin pada langkah itu. Semakin besar langkah, semakin besar suboptimalitas, sebagai aturan. Mengingat bahwa kami biasanya menginginkan beberapa kluster, langkah terakhir penting; dan, seperti yang baru saja dikatakan, mereka diharapkan relatif miskin jika jumlah langkahnya tinggi (katakanlah, langkah keseribu). Itu sebabnya pengelompokan hierarkis umumnya tidak direkomendasikan untuk sampel besar objek (berjumlah ribuan objek) bahkan jika program dapat menangani matriks jarak yang begitu besar.

Jika setelah tindakan pencegahan di atas, Anda terus berpikir bahwa Anda menginginkan ukuran kesamaan antara klasifikasi hierarkis Anda mungkin google di 'membandingkan dendrogram' dan 'membandingkan klasifikasi hierarkis'. Satu ide yang paling menyarankan itu sendiri mungkin didasarkan pada korelasi cophenetic: memiliki dua dendrogram untuk dataset yang sama dari objek n , biarkan menjadi koefisien koligasi (atau mungkin peringkatnya, jumlah langkah) antara setiap pasangan objek ij di satu dendrogram, dan juga sama dengan dendrogram lainnya. Hitung korelasi atau kosinus. $X_{ij}$ $Y_{ij}$

$^1$ Pembaruan selanjutnya tentang masalah dendrogram metode Ward . Program pengelompokan yang berbeda dapat menghasilkan koefisien aglomerasi yang ditransformasikan secara berbeda untuk metode Ward. Oleh karena itu dendrogram mereka akan terlihat agak berbeda meskipun sejarah pengelompokan dan hasilnya sama . Sebagai contoh, SPSS tidak mengambil root dari koefisien ultrametrik, dan mengumpulkannya dalam output. Tradisi lain (ditemukan dalam beberapa paket R, misalnya) adalah mengambil root (disebut "Ward-2"implementasi) dan tidak terakumulasi. Untuk mengulangi lagi, perbedaan seperti itu hanya mempengaruhi bentuk umum / penampilan dendrogram, bukan hasil pengelompokan. Tetapi tampilan dendrogram dapat memengaruhi keputusan Anda tentang jumlah cluster. Moralnya adalah bahwa akan aman untuk tidak bergantung pada dendrogram dalam metode Ward sama sekali, kecuali Anda tahu persis apa koefisien-koefisien ini dari program Anda dan bagaimana menafsirkannya dengan benar.

ttnphns
sumber

Saya dapat yang kedua dari semua ini. Dua poin yang ingin saya tambahkan: A) apa yang tampaknya Anda lakukan adalah semacam overfitting . Dengan mengevaluasi tindakan, bobot, dan metode secara sistematis, ada risiko tinggi bahwa parameter yang Anda peroleh sangat spesifik untuk data Anda saat ini, dan mungkin tidak berguna pada data lain atau bahkan data yang lebih baru. B) apa gunanya mengetahui kesamaan dendrogram. Pertimbangkan apa yang ingin Anda lakukan dengan mereka sesudahnya, dan kemudian coba evaluasi pada hasil akhirnya. Mengevaluasi hasil sementara mungkin menyesatkan.

Anony-Mousse

Jika Anda masih tertarik dengan topik ini, saya pikir Anda mungkin menemukan jawaban terakhir saya pada DS SE bermanfaat, terutama karena menawarkan cakupan, meskipun terbatas, baik dari pendekatan frequentist dan Bayesian untuk model topikal hirarkis (dengan informasi kelas tertanam) dan memilih langkah-langkah kesamaan .

Aleksandr Blekh

@ttnphns, bisakah Anda menjelaskan lebih detail bagaimana menggunakan "koefisien kolokasi" untuk membandingkan dua klasifikasi hirarkis?

bassir

Membandingkan dendrogram pengelompokan hierarkis yang diperoleh dengan jarak & metode yang berbeda

Jawaban: