Saya bertanya-tanya apakah ada yang punya wawasan atau intuisi di balik perbedaan antara Variasi Informasi dan Indeks Rand untuk membandingkan pengelompokan.
Saya telah membaca makalah " Membandingkan Clusterings - Sebuah Jarak Berbasis Informasi " oleh Marina Melia (Journal of Multivariate Analysis, 2007), tetapi, selain memperhatikan perbedaan dalam definisi, saya tidak mengerti apa itu variasi informasi menangkap bahwa indeks rand tidak menangkap.
sumber
Menurut pendapat saya, ada perbedaan besar. Indeks Rand sangat dipengaruhi oleh granularity dari pengelompokan di mana ia beroperasi. Dalam apa yang saya ikuti saya akan menggunakan jarak Mirkin, yang merupakan bentuk disesuaikan dari indeks Rand (mudah dilihat, tetapi lihat misalnya Meila). Saya juga akan menggunakan jarak split / join, yang juga disebutkan dalam beberapa makalah Meila (penafian: split / join distance diusulkan oleh saya). Misalkan alam semesta seratus elemen. Saya akan menggunakan Top untuk menunjukkan pengelompokan dengan satu klaster yang berisi semua elemen, Bawah untuk menunjukkan pengelompokan di mana semua node dalam set singleton terpisah, Kiri untuk menunjukkan pengelompokan {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , dan Hak untuk menunjukkan pengelompokan {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.
Menurut saya, Bawah dan Atas adalah kelompok yang konsisten (bersarang), sedangkan Kiri dan Kanan adalah kelompok yang saling bertentangan secara maksimal. Jarak dari metrik yang disebutkan untuk dua perbandingan berpasangan ini adalah sebagai berikut:
Oleh karena itu Mirkin / Rand menganggap pasangan Top-Bottom konsisten jauh lebih jauh daripada pasangan Kiri-Kanan yang saling bertentangan. Ini adalah contoh ekstrim untuk menggambarkan hal ini, tetapi Mirkin / Rand secara umum sangat dipengaruhi oleh granularity dari pengelompokan di mana ia beroperasi. Alasan yang mendasari ini adalah hubungan kuadratik antara ukuran metrik dan kluster ini, dijelaskan oleh fakta bahwa penghitungan pasangan node terlibat. Akibatnya, jarak Mirkin adalah jarak Hamming antara set tepi serikat grafik lengkap yang disebabkan oleh pengelompokan (ini adalah jawaban untuk pertanyaan Anda saya pikir).
Mengenai perbedaan antara Variasi Informasi dan Split / Gabung, yang pertama lebih sensitif terhadap situasi konflik tertentu seperti yang ditunjukkan oleh Meila. Yaitu, Split / Bergabung hanya menganggap yang paling cocok untuk setiap cluster, dan mengabaikan fragmentasi yang mungkin terjadi pada bagian yang tersisa dari cluster itu, sedangkan Variasi Informasi akan mengambil ini. Yang mengatakan, Split / Bergabung mudah ditafsirkan sebagai jumlah node yang perlu dipindahkan untuk mendapatkan satu cluster dari yang lain , dan dalam hal ini jangkauannya lebih mudah dipahami; dalam praktiknya masalah fragmentasi mungkin juga tidak terlalu umum.
Masing-masing metrik ini dapat dibentuk sebagai jumlah dari dua jarak, yaitu jarak dari masing-masing dua pengelompokan ke subkluster umum terbesar mereka. Saya merasa sering bermanfaat untuk bekerja dengan bagian-bagian yang terpisah itu daripada hanya jumlah mereka. Tabel di atas kemudian menjadi:
Hubungan subsumsi antara Atas dan Bawah menjadi jelas dengan segera. Seringkali cukup berguna untuk mengetahui apakah dua pengelompokan konsisten (yaitu satu (hampir) merupakan subkluster dari yang lain) sebagai pelonggaran dari pertanyaan apakah mereka dekat . Pengelompokan bisa sangat jauh dari standar emas, tetapi masih konsisten atau hampir konsisten. Dalam kasus seperti itu, mungkin tidak ada alasan untuk menganggap clustering buruk sehubungan dengan standar emas itu. Tentu saja, pengelompokan sepele Atas dan Bawah akan konsisten dengan pengelompokan apa pun , jadi ini harus diperhitungkan.
Akhirnya, saya percaya bahwa metrik seperti Mirkin, Variasi Informasi, dan Split / Gabung adalah alat alami untuk membandingkan pengelompokan. Untuk sebagian besar aplikasi, metode yang mencoba menggabungkan kemandirian statistik dan mengoreksi kemungkinan terlalu dibuat-buat dan dikaburkan daripada diklarifikasi.
Contoh kedua Pertimbangkan pasangan pengelompokan berikut: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} dengan C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 14, 15, 16}}
dan C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} dengan {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
Di sini C2 dapat dibentuk dari C1 dengan memindahkan node 9 dan 10 dan C3 dapat dibentuk dari C3 dengan memindahkan node 11 dan 12. Kedua perubahan itu identik ("pindahkan dua node") kecuali kenyataan bahwa ukuran cluster yang terlibat berbeda . Tabel metrik pengelompokan untuk dua contoh ini adalah ini:
Dapat dilihat bahwa Mirkin / Rand dan Variasi informasi dipengaruhi oleh ukuran cluster (dan Mirkin pada tingkat yang lebih besar; ini akan lebih diucapkan sebagai ukuran cluster berbeda), sedangkan jarak Split / Join tidak (nilainya 4 karena "memindahkan" node dari satu pengelompokan ke yang lainnya selalu melalui subkluster umum terbesar). Ini mungkin sifat yang diinginkan tergantung pada keadaan. Interpretasi sederhana dari Split / Bergabung (jumlah node untuk bergerak) dan independensi ukuran cluster layak disadari. Antara Mirkin dan Variasi Informasi Saya pikir yang terakhir sangat disukai.
sumber