Koefisien korelasi Matthews dengan multi-kelas

9

Koefisien korelasi Matthews ( ) adalah ukuran untuk mengukur kualitas klasifikasi biner ([Wikipedia] [1]). diberikan untuk klasifikasi biner yang menggunakan true positive ( ), false positive ( ), false negative ( ), dan nilai true negative ( ) seperti yang diberikan di bawah ini: $\textrm{MCC}$ $\textrm{MCC}$ $TP$ $FP$ $FN$ $TN$

MCC = \frac{T P \times T N - F P \times F N}{\sqrt{(T P + F P) (T P + F N) (T N + F P) (T N + F N)}}

$\textrm {MCC} = \frac{TP\times TN - FP\times FN}{\sqrt{\left(TP+FP\right)\left(TP+FN\right)\left(TN+FP\right)\left(TN+FN\right)}}$

Aku punya kasus di mana saya harus mengklasifikasikan tiga kelas yang berbeda, , , dan . Bisakah saya menerapkan formulasi di atas untuk menghitung untuk kasus multi-kelas setelah menghitung nilai , , , dan untuk setiap kelas seperti yang ditunjukkan di bawah ini? $A$ $B$ $C$ $\textrm{MCC}$ $TP$ $TN$ $FP$ $FN$

T P = T P_{SEBUAH} + T P_{B} + T P_{C}; T N = T N_{SEBUAH} + T N_{B} + T N_{C}; F P = F P_{SEBUAH} + F P_{B} + F P_{C}; F N = F N_{SEBUAH} + F N_{B} + F N_{C};

$TP = TP_A + TP_B + TP_C;\\ TN = TN_A + TN_B + TN_C;\\ FP = FP_A + FP_B + FP_C;\\ FN = FN_A + FN_B + FN_C;$

machine-learning classification multi-class agreement-statistics John David
sumber

Koefisien korelasi Matthews (yang untuk klasifikasi biner hanyalah korelasi Phi atau Pearson) menjadi apa yang dikenal sebagai korelasi Rk untuk klasifikasi multikelas. Dua formula itu dikutip dalam dokumen saya "Bandingkan partisi" di halaman web saya.

ttnphns

5

Ya, secara umum, Anda bisa. Pendekatan yang ingin Anda gunakan kadang-kadang disebut "Micro-Averaging": pertama, jumlah semua TN, FPs, dll untuk setiap kelas, dan kemudian hitung statistik yang menarik.

Cara lain untuk menggabungkan statistik untuk setiap kelas adalah dengan menggunakan apa yang disebut "Makro-Rata-Rata": di sini Anda pertama-tama menghitung statistik untuk masing-masing kelas (A vs bukan A, B vs bukan B, dll), lalu menghitung rata-rata dari mereka.

Anda dapat melihat di sini untuk beberapa detail tambahan. Halaman ini berbicara tentang Precision dan Recall, tapi saya percaya ini berlaku untuk koefisien Matthew serta statistik lain berdasarkan tabel kontingensi.

Alexey Grigorev
sumber

4

Teknik rata-rata makro bekerja dengan baik untuk presisi, sensitivitas, dan spesifisitas. Tetapi ketika saya mencobanya untuk PKS, hasilnya tidak sesuai. Untuk detail lebih lanjut tentang perhitungan MCC multi-kelas, lihat:

Jurman G, Riccadonna S, Furlanello C (2012) " Perbandingan Ukuran Kesalahan PKS dan CEN dalam Prediksi Multi Kelas ". PLoS ONE 7 (8): e41882. doi: 10.1371 / journal.pone.0041882
Jurman, Giuseppe, dan Cesare Furlanello. "Pandangan pemersatu untuk ukuran kinerja dalam prediksi multi-kelas." arXiv preprint arXiv: 1008.2908 (2010).

Kode berikut ini berfungsi untuk saya:

% the confusion matrix at input is given by matrix cm_svm_array
mcc_numerator=0;count=1;
% limits klm=1 TO n SUM(ckk.cml - clk.ckm)
for k = 1:1:length(cm_svm_array)
    for l=1:1:length(cm_svm_array)
        for m=1:1:length(cm_svm_array)
          mcc_numerator1(count) = (cm_svm_array(k,k) *cm_svm_array(m,l))-
                                  (cm_svm_array(l,k)*cm_svm_array(k,m))
          mcc_numerator=mcc_numerator+mcc_numerator1(count)
          count=count+1;
        end
    end
end

mcc_denominator_1=0 ; count=1;
for k=1:1:length(cm_svm_array)
     mcc_den_1_part1=0;
    for l=1:1:length(cm_svm_array)
        mcc_den_1_part1= mcc_den_1_part1+cm_svm_array(l,k);
    end
    mcc_den_1_part2=0;
    for f=1:1:length(cm_svm_array)
        if f ~=k
          for g=1:1:length(cm_svm_array)
            mcc_den_1_part2= mcc_den_1_part2+cm_svm_array(g,f);
          end
        end
    end
    mcc_denominator_1=(mcc_denominator_1+(mcc_den_1_part1*mcc_den_1_part2));
end

mcc_denominator_2=0; count=1;
for k=1:1:length(cm_svm_array)
     mcc_den_2_part1=0;
    for l=1:1:length(cm_svm_array)
        mcc_den_2_part1= mcc_den_2_part1+cm_svm_array(k,l);
    end
    mcc_den_2_part2=0;
    for f=1:1:length(cm_svm_array)
        if f ~=k
          for g=1:1:length(cm_svm_array)
            mcc_den_2_part2= mcc_den_2_part2+cm_svm_array(f,g);
          end
        end
    end
    mcc_denominator_2=(mcc_denominator_2+(mcc_den_2_part1*mcc_den_2_part2));
end

mcc = (mcc_numerator)/((mcc_denominator_1^0.5)*(mcc_denominator_2^0.5))

Swati Shilaskar
sumber

1

MCC dapat digunakan untuk Wikipedia klasifikasi biner dan multikelas dan ini diterapkan dalam pembelajaran sci-kit untuk label biner dan multikelas.

David Makovoz
sumber

0

MCC dirancang untuk klasifikasi biner.

Jika Anda ingin mendapatkan pengukuran classifier yang serupa, Anda bisa mencoba Cohen Kappa, itu dapat diterapkan ke matriks kebingungan multi-kelas.

Nico
sumber

Koefisien korelasi Matthews dengan multi-kelas

Jawaban: