Apa nilai kriteria Calinski & Harabasz (CH) yang dapat diterima?

25

Saya telah melakukan analisis data yang mencoba mengelompokkan data longitudinal menggunakan paket R dan kml . Data saya berisi sekitar 400 lintasan individu (seperti yang disebut di koran). Anda dapat melihat hasil saya di gambar berikut:

masukkan deskripsi gambar di sini

Setelah membaca bab 2.2 "Memilih jumlah cluster yang optimal" di makalah yang sesuai saya tidak mendapatkan jawaban. Saya lebih suka memiliki 3 cluster tetapi hasilnya masih OK dengan CH 80. Sebenarnya saya bahkan tidak tahu apa yang diwakili nilai CH.

Jadi pertanyaan saya, apa nilai kriteria Calinski & Harabasz (CH) yang dapat diterima?

greg121
sumber
gambar solusi-cluster Anda berasal dari SPSS? apakah mungkin untuk menghitung kriteria CH ini di SPSS? Terima kasih! :) b
berbelein
Selamat datang di situs ini, @berbelein. Ini bukan jawaban untuk pertanyaan OP. Harap hanya menggunakan bidang "Jawaban Anda" untuk memberikan jawaban. Jika Anda memiliki pertanyaan Anda sendiri, klik [ASK QUESTION]tanyakan di sana, maka kami dapat membantu Anda dengan baik. Karena Anda baru di sini, Anda mungkin ingin mengikuti tur kami , yang berisi informasi untuk pengguna baru.
gung - Pasang kembali Monica
@berbelein gambar-gambar itu dari R.
greg121

Jawaban:

40

Ada beberapa hal yang harus diperhatikan.

  • Seperti kebanyakan kriteria pengelompokan internal , Calinski-Harabasz adalah perangkat heuristik. Cara yang tepat untuk menggunakannya adalah dengan membandingkan solusi pengelompokan yang diperoleh pada data yang sama, - solusi yang berbeda baik dengan jumlah kelompok atau dengan metode pengelompokan yang digunakan.

  • Tidak ada nilai cut-off "dapat diterima". Anda cukup membandingkan nilai CH dengan mata. Semakin tinggi nilainya, "lebih baik" adalah solusinya. Jika pada garis-plot nilai CH tampak ada satu solusi yang memberikan puncak atau paling tidak siku yang tiba-tiba, pilihlah. Sebaliknya, jika garisnya halus - horizontal atau naik atau turun - maka tidak ada alasan untuk memilih satu solusi dari yang lain.

  • Kriteria CH didasarkan pada ideologi ANOVA. Oleh karena itu, ini menyiratkan bahwa objek yang dikelompokkan berada dalam ruang skala Euclidean (bukan ordinal atau biner atau nominal). Jika data yang dikelompokkan bukan objek X variabel tetapi matriks ketidaksamaan antara objek maka ukuran ketidaksamaan harus (kuadrat) jarak euclidean (atau, lebih buruk, saya jarak metrik lain yang mendekati jarak euclidean oleh properti).

  • Kriteria CH paling cocok jika cluster lebih atau kurang bulat dan kompak di tengahnya (misalnya terdistribusi normal, misalnya) . Dengan kondisi lain yang sama, CH cenderung lebih menyukai solusi cluster dengan cluster yang terdiri dari jumlah objek yang kira-kira sama.1

Mari kita amati sebuah contoh. Di bawah ini adalah sebar data yang dihasilkan sebagai 5 cluster terdistribusi normal yang terletak cukup dekat satu sama lain.

masukkan deskripsi gambar di sini

Data-data ini dikelompokkan dengan metode hierarki rata-rata-linkage, dan semua solusi cluster (keanggotaan cluster) dari 15-cluster hingga 2-cluster solusi disimpan. Kemudian dua kriteria pengelompokan diterapkan untuk membandingkan solusi dan untuk memilih yang "lebih baik", jika ada.

masukkan deskripsi gambar di sini

Plot untuk Calinski-Harabasz ada di sebelah kiri. Kami melihat bahwa - dalam contoh ini - CH dengan jelas menunjukkan solusi 5-kluster (berlabel CLU5_1) sebagai yang terbaik. Plot untuk kriteria pengelompokan lain, C-Index (yang tidak didasarkan pada ideologi ANOVA dan lebih universal dalam penerapannya daripada CH) ada di sebelah kanan. Untuk C-Index, nilai yang lebih rendah menunjukkan solusi "lebih baik". Seperti yang ditunjukkan plot, solusi 15-kluster secara formal adalah yang terbaik. Tetapi ingat bahwa dengan kriteria pengelompokan topografi yang kasar lebih penting dalam pengambilan keputusan daripada besarnya itu sendiri. Perhatikan ada siku pada solusi 5-klaster; Solusi 5-cluster masih relatif baik sementara solusi 4 atau 3-cluster memburuk oleh lompatan. Karena kami biasanya ingin mendapatkan "solusi yang lebih baik dengan lebih sedikit kluster", pilihan solusi 5-kluster juga masuk akal untuk pengujian C-Index.

PS Posting ini juga memunculkan pertanyaan apakah kita harus lebih mempercayai maksimum aktual (atau minimum) kriteria pengelompokan atau lebih tepatnya lanskap plot nilainya.


1 Catatan selanjutnya . Tidak begitu ditulis. Penyelidikan saya pada dataset disimulasikan meyakinkan saya bahwa CH tidak memiliki preferensi untuk distribusi bentuk lonceng daripada yang platykurtic (seperti dalam bola) atau ke kluster melingkar di atas ellipsoidal, - jika menjaga varians keseluruhan intracluster dan pemisahan centroid interluster sama. Namun, satu nuansa yang perlu diingat adalah bahwa jika kluster diperlukan (seperti biasa) agar tidak tumpang tindih dalam ruang, maka konfigurasi klaster yang baik dengan klaster bundar hanya lebih mudah ditemui dalam praktik nyata sebagai konfigurasi yang sama baiknya dengan kluster oblong ( efek "pensil dalam kotak"); yang tidak ada hubungannya dengan bias kriteria pengelompokan.

Tinjauan umum kriteria pengelompokan internal dan cara menggunakannya .

ttnphns
sumber
Seorang pembaca mungkin ingin melihat stats.stackexchange.com/q/242360/3277 pertanyaan juga.
ttnphns
Saya telah menerapkan untuk SPSS sejumlah kriteria validasi pengelompokan paling populer, - silakan kunjungi halaman web saya, koleksi "Kriteria pengelompokan".
ttnphns