Haruskah saya membuat keputusan berdasarkan langkah-langkah evaluasi mikro-rata-rata atau rata-rata makro?

21

Saya menjalankan validasi silang 10 kali lipat pada algoritma klasifikasi biner yang berbeda, dengan dataset yang sama, dan menerima hasil rata-rata Mikro dan Makro. Harus disebutkan bahwa ini adalah masalah klasifikasi multi-label.

Dalam kasus saya, negatif sejati dan positif sejati juga diberi bobot yang sama. Itu berarti memprediksi dengan benar negatif yang sebenarnya sama pentingnya dengan memprediksi dengan benar positif yang sebenarnya.

Rata-rata ukuran mikro lebih rendah daripada ukuran rata-rata makro. Berikut adalah hasil dari Neural Network dan Support Vector Machine:

masukkan deskripsi gambar di sini

Saya juga menjalankan uji persentase-split pada dataset yang sama dengan algoritma lain. Hasilnya adalah:

masukkan deskripsi gambar di sini

Saya lebih suka membandingkan uji persentase-split dengan hasil rata-rata makro, tetapi apakah itu adil? Saya tidak percaya bahwa hasil rata-rata makro bias karena positif dan negatif sejati benar-benar tertimbang, tetapi sekali lagi, saya bertanya-tanya apakah ini sama dengan membandingkan apel dengan jeruk?

MEMPERBARUI

Berdasarkan komentar saya akan menunjukkan bagaimana rata-rata mikro dan makro dihitung.

Saya memiliki 144 label (sama dengan fitur atau atribut) yang ingin saya prediksi. Precision, Recall, dan F-Measure dihitung untuk setiap label.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Mempertimbangkan ukuran evaluasi biner B (tp, tn, fp, fn) yang dihitung berdasarkan positif sejati (tp), negatif sejati (tn), positif palsu (fp), dan negatif palsu (fn). Rata-rata makro dan mikro ukuran tertentu dapat dihitung sebagai berikut:

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Dengan menggunakan rumus ini kita dapat menghitung rata-rata mikro dan makro sebagai berikut:

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Jadi, pengukuran rata-rata mikro menambahkan semua tp, fp dan fn (untuk setiap label), setelah itu evaluasi biner baru dilakukan. Ukuran rata-rata makro menambahkan semua ukuran (Precision, Recall, atau F-Measure) dan membaginya dengan jumlah label, yang lebih mirip rata-rata.

Sekarang, pertanyaannya adalah mana yang harus digunakan?

Kenci
sumber
Ketika Anda bertanya mana yang harus digunakan, apa tujuan penggunaannya? Memilih antara dua metode, merangkum hasil, atau yang lainnya?
Sean Easter
1
Penggunaan yang dimaksudkan adalah untuk mengetahui model mana yang paling unggul, dan untuk mengatakan sesuatu tentang seberapa baik kinerjanya. Saya menemukan bahwa pengukuran Mikro lebih unggul menurut: Forman, George, dan Martin Scholz. "Apel ke apel dalam studi validasi silang: perangkap dalam pengukuran kinerja classifier." ACM SIGKDD Explorations Newsletter 12.1 (2010): 49-57.
Kenci
@ Kenci, saya percaya Anda harus memposting itu sebagai balasan untuk pertanyaan Anda sendiri dan mengonfirmasi sebagai jawaban yang tepat. Terima kasih untuk referensi!
fnl
FYI Micro vs skor F1 tertimbang
Franck Dernoncourt

Jawaban:

27

Jika menurut Anda semua label berukuran kurang lebih sama (memiliki jumlah mesin yang kira-kira sama), gunakan salah satunya.

Jika menurut Anda ada label dengan lebih banyak contoh daripada yang lain dan jika Anda ingin membuat bias metrik Anda ke yang paling padat, gunakan micromedia .

Jika Anda berpikir ada label dengan lebih banyak contoh daripada yang lain dan jika Anda ingin membuat bias metrik Anda ke metrik yang paling sedikit penduduknya (atau setidaknya Anda tidak ingin bias terhadap yang paling padat), gunakan macromedia .

Jika hasil mikromedia jauh lebih rendah daripada makromedia, itu berarti Anda memiliki beberapa kesalahan klasifikasi dalam label yang paling banyak diisi, sedangkan label yang lebih kecil mungkin diklasifikasikan dengan benar. Jika hasil macromedia secara signifikan lebih rendah dari pada micromedia, itu berarti label Anda yang lebih kecil memiliki klasifikasi buruk, sedangkan yang lebih besar mungkin diklasifikasikan dengan benar.

Jika Anda tidak yakin apa yang harus dilakukan, lanjutkan dengan perbandingan mikro dan makro rata-rata :)

Ini adalah makalah yang bagus tentang masalah ini.

felipeduque
sumber