Saya telah melakukan analisis data yang mencoba mengelompokkan data longitudinal menggunakan paket R dan kml . Data saya berisi sekitar 400 lintasan individu (seperti yang disebut di koran). Anda dapat melihat hasil saya di gambar berikut:
Setelah membaca bab 2.2 "Memilih jumlah cluster yang optimal" di makalah yang sesuai saya tidak mendapatkan jawaban. Saya lebih suka memiliki 3 cluster tetapi hasilnya masih OK dengan CH 80. Sebenarnya saya bahkan tidak tahu apa yang diwakili nilai CH.
Jadi pertanyaan saya, apa nilai kriteria Calinski & Harabasz (CH) yang dapat diterima?
r
clustering
panel-data
greg121
sumber
sumber
[ASK QUESTION]
tanyakan di sana, maka kami dapat membantu Anda dengan baik. Karena Anda baru di sini, Anda mungkin ingin mengikuti tur kami , yang berisi informasi untuk pengguna baru.Jawaban:
Ada beberapa hal yang harus diperhatikan.
Seperti kebanyakan kriteria pengelompokan internal , Calinski-Harabasz adalah perangkat heuristik. Cara yang tepat untuk menggunakannya adalah dengan membandingkan solusi pengelompokan yang diperoleh pada data yang sama, - solusi yang berbeda baik dengan jumlah kelompok atau dengan metode pengelompokan yang digunakan.
Tidak ada nilai cut-off "dapat diterima". Anda cukup membandingkan nilai CH dengan mata. Semakin tinggi nilainya, "lebih baik" adalah solusinya. Jika pada garis-plot nilai CH tampak ada satu solusi yang memberikan puncak atau paling tidak siku yang tiba-tiba, pilihlah. Sebaliknya, jika garisnya halus - horizontal atau naik atau turun - maka tidak ada alasan untuk memilih satu solusi dari yang lain.
Kriteria CH didasarkan pada ideologi ANOVA. Oleh karena itu, ini menyiratkan bahwa objek yang dikelompokkan berada dalam ruang skala Euclidean (bukan ordinal atau biner atau nominal). Jika data yang dikelompokkan bukan objek X variabel tetapi matriks ketidaksamaan antara objek maka ukuran ketidaksamaan harus (kuadrat) jarak euclidean (atau, lebih buruk, saya jarak metrik lain yang mendekati jarak euclidean oleh properti).
Kriteria CH paling cocok jika cluster lebih atau kurang bulat dan kompak di tengahnya (misalnya terdistribusi normal, misalnya) . Dengan kondisi lain yang sama, CH cenderung lebih menyukai solusi cluster dengan cluster yang terdiri dari jumlah objek yang kira-kira sama.1
Mari kita amati sebuah contoh. Di bawah ini adalah sebar data yang dihasilkan sebagai 5 cluster terdistribusi normal yang terletak cukup dekat satu sama lain.
Data-data ini dikelompokkan dengan metode hierarki rata-rata-linkage, dan semua solusi cluster (keanggotaan cluster) dari 15-cluster hingga 2-cluster solusi disimpan. Kemudian dua kriteria pengelompokan diterapkan untuk membandingkan solusi dan untuk memilih yang "lebih baik", jika ada.
Plot untuk Calinski-Harabasz ada di sebelah kiri. Kami melihat bahwa - dalam contoh ini - CH dengan jelas menunjukkan solusi 5-kluster (berlabel CLU5_1) sebagai yang terbaik. Plot untuk kriteria pengelompokan lain, C-Index (yang tidak didasarkan pada ideologi ANOVA dan lebih universal dalam penerapannya daripada CH) ada di sebelah kanan. Untuk C-Index, nilai yang lebih rendah menunjukkan solusi "lebih baik". Seperti yang ditunjukkan plot, solusi 15-kluster secara formal adalah yang terbaik. Tetapi ingat bahwa dengan kriteria pengelompokan topografi yang kasar lebih penting dalam pengambilan keputusan daripada besarnya itu sendiri. Perhatikan ada siku pada solusi 5-klaster; Solusi 5-cluster masih relatif baik sementara solusi 4 atau 3-cluster memburuk oleh lompatan. Karena kami biasanya ingin mendapatkan "solusi yang lebih baik dengan lebih sedikit kluster", pilihan solusi 5-kluster juga masuk akal untuk pengujian C-Index.
PS Posting ini juga memunculkan pertanyaan apakah kita harus lebih mempercayai maksimum aktual (atau minimum) kriteria pengelompokan atau lebih tepatnya lanskap plot nilainya.
Tinjauan umum kriteria pengelompokan internal dan cara menggunakannya .
sumber