Dari Encyclopedia of Statistics Sciences saya mengerti bahwa dengan diberikan (dikotomi (biner: 1 = sekarang; 0 = tidak ada) atribut (variabel), kita dapat membentuk tabel kontingensi untuk dua objek i dan j dari sampel:
j
1 0
-------
1 | a | b |
i -------
0 | c | d |
-------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.
Kita dapat menghitung dari nilai-nilai ini koefisien kemiripan antara pasangan benda, khususnya koefisien Jaccard dan koefisien Russell dan Rao a
Kegunaan koefisien Tanimoto atas akurasi tradisional (yaitu Russell-Rao) terbukti dalam analisis gambar, ketika membandingkan segmentasi dengan standar emas. Pertimbangkan dua gambar ini:
Dalam setiap gambar yang merupakan 'topeng' biner, kami memiliki dua objek dengan ukuran yang sama tetapi ditempatkan di lokasi yang sedikit berbeda, dan kami ingin mengevaluasi sejauh mana benda-benda ini identik dalam bentuk dan posisi dengan menilai tumpang tindih mereka. Biasanya satu (mis. Topeng ungu) adalah segmentasi (dihasilkan oleh algoritma komputer), misalnya ini bisa merupakan upaya untuk menemukan jantung dari citra medis. Yang lain, (misalnya hijau) adalah standar emas (yaitu jantung, seperti yang diidentifikasi oleh dokter ahli). Di mana ada warna putih, kedua bentuk itu tumpang tindih. Piksel hitam adalah latar belakang.
Kedua gambar identik (yaitu hasil dari algoritma segmentasi, serta standar emas, adalah sama di kedua gambar), kecuali untuk banyak "padding" latar belakang pada gambar kedua (misalnya ini dapat mewakili dua percobaan dengan dua mesin x-ray yang berbeda, di mana mesin ke-2 memiliki sinar yang lebih luas yang mencakup lebih banyak area tubuh, tetapi sebaliknya ukuran jantung sama di kedua set gambar).
Jelas, karena segmentasi dan standar emas pada kedua gambar identik, jika kami mengevaluasi akurasi segmentasi terhadap standar emas, kami ingin metrik kami untuk menampilkan hasil 'akurasi' yang sama di kedua percobaan.
Namun, jika kami mencoba untuk menilai kualitas segmentasi menggunakan pendekatan Russel-Rao, kami akan mendapatkan akurasi tinggi yang menyesatkan untuk gambar yang tepat (hampir 100%), karena "piksel latar belakang diidentifikasi dengan benar sebagai piksel latar belakang" berkontribusi terhadap akurasi keseluruhan set, dan piksel latar belakang secara tidak proporsional terwakili dalam set kedua. Objek yang tumpang tindih yang ingin kita evaluasi dalam segmentasi medis seringkali merupakan bintik-bintik kecil dengan latar belakang masif, jadi ini tidak terlalu berguna bagi kita. Selain itu, ini akan menimbulkan masalah jika kami mencoba membandingkan akurasi dari satu algoritma segmentasi dengan yang lain, dan keduanya dievaluasi pada gambar dengan ukuran yang berbeda! (atau, ekuivalen, pada skala yang berbeda).Penskalaan / ukuran gambar yang disematkan seharusnya tidak membuat perbedaan dalam evaluasi segmentasi terhadap standar emas! .
Sebaliknya, koefisien tanimoto tidak peduli dengan piksel latar belakang, membuatnya tidak berubah menjadi 'skala'. Jadi sejauh menyangkut koefisien tanimoto, kesamaan kedua set ini akan identik, menjadikannya metrik kesamaan yang jauh lebih berguna bagi kami untuk digunakan untuk mengevaluasi kualitas algoritma segmentasi.
sumber