Ini adalah tindak lanjut dari pertanyaan ini . Saat ini saya sedang mencoba mengimplementasikan C-Index untuk menemukan jumlah cluster yang hampir optimal dari hierarki cluster. Saya melakukan ini dengan menghitung C-Index untuk setiap langkah dari pengelompokan hierarkis (aglomeratif). Masalahnya adalah bahwa C-Index minimal (0 tepatnya) untuk klaster yang sangat terdegenerasi. Pertimbangkan ini:
Dalam hal ini adalah jumlah dari semua jarak antara pasangan pengamatan di cluster yang sama di semua cluster. Biarkan menjadi jumlah pasangan ini. dan adalah jumlah dari jarak terendah / tertinggi di semua pasangan pengamatan. Pada langkah pertama pengelompokan hierarkis, dua pengamatan terdekat (jarak minimal) digabung menjadi sebuah kluster. Biarkan menjadi jarak antara pengamatan ini. Sekarang ada satu pasang pengamatan di cluster yang sama, jadi (semua cluster lain adalah lajang). Akibatnya . Masalahnya adalah juga sama dengan, karena adalah jarak terkecil (itulah sebabnya pengamatan di mana digabungkan terlebih dahulu). Jadi untuk kasus ini, C-Index selalu 0. Itu tetap 0 selama hanya cluster tunggal yang digabung. Ini berarti pengelompokan optimal menurut C-Index akan selalu terdiri dari sekelompok cluster yang berisi dua pengamatan, dan sisanya lajang. Apakah ini berarti bahwa C-Index tidak berlaku untuk pengelompokan hierarkis? Apakah saya melakukan sesuatu yang salah? Saya telah mencari banyak, tetapi tidak dapat menemukan penjelasan yang cocok. Dapatkah seseorang merujuk saya ke beberapa sumber daya yang tersedia secara bebas di internet? Atau, jika tidak, setidaknya buku yang bisa saya coba dapatkan di perpustakaan universitas saya?
Terima kasih sebelumnya!
sumber
Jawaban:
Ini mungkin salah satu kasus di mana ada lebih banyak seni daripada ilmu pengetahuan untuk pengelompokan. Saya menyarankan agar Anda membiarkan algoritma pengelompokan Anda berjalan untuk waktu yang singkat sebelum membiarkan perhitungan C-Index masuk. "Waktu singkat" mungkin setelah memproses beberapa pasangan, tepat ketika mulai melebihi 0, atau heuristik lainnya. (Bagaimanapun Anda tidak berharap untuk berhenti di 1 atau 2 cluster, jika tidak, algoritma pemisahan yang berbeda mungkin telah digunakan.)
Untuk rekomendasi buku, saya dapat menyarankan:
Anda dapat memindai / mencari konten yang tersedia di buku google untuk melihat apakah itu dapat memenuhi kebutuhan Anda. Ini berfungsi sebagai referensi bagi saya di masa lalu.
sumber