Terutama di sisi yang berorientasi pada ilmu komputer dari literatur pembelajaran mesin, AUC (area di bawah kurva karakteristik operator penerima) adalah kriteria populer untuk mengevaluasi pengklasifikasi. Apa justifikasi untuk menggunakan AUC? Misalnya, apakah ada fungsi kerugian tertentu yang keputusan optimalnya adalah pengklasifikasi dengan AUC terbaik?
machine-learning
roc
charles.y.zheng
sumber
sumber
Jawaban:
Untuk pengklasifikasi biner digunakan untuk menentukan peringkat (yaitu untuk setiap contoh kami memiliki dalam interval ) dari mana AUC diukur, AUC setara dengan probabilitas bahwa mana adalah contoh positif sejati dan adalah contoh negatif sejati. Dengan demikian, memilih model dengan AUC maksimal meminimalkan kemungkinan . Artinya, meminimalkan hilangnya peringkat negatif sejati, setidaknya sebesar positif sejati.e C ( e ) [ 0 , 1 ] C ( e 1 ) > C ( e 0 ) e 1 e 0 C ( e 0 ) ≥ C ( e 1 )C e C(e) [0,1] C(e1)>C(e0) e1 e0 C(e0)≥C(e1)
sumber
Mari kita ambil contoh sederhana mengidentifikasi tomat baik dari kumpulan tomat baik + buruk. Katakanlah jumlah tomat baik adalah 100, dan tomat buruk adalah 1000, Jadi totalnya 1100. Sekarang tugas Anda adalah mengidentifikasi sebanyak mungkin tomat baik. Salah satu cara untuk mendapatkan semua tomat yang baik adalah dengan mengambil semua 1.100 tomat. Tetapi jelas mengatakan Anda tidak dapat membedakan b / n baik vs buruk .
Jadi, Apa cara yang tepat untuk membedakan - perlu mendapatkan yang bagus sambil mengambil sangat sedikit yang buruk , Jadi kita perlu mengukur sesuatu, yang bisa mengatakan berapa banyak yang bagus yang kita ambil dan juga mengatakan berapa jumlah yang buruk dihitung dalam Itu. Ukuran AUC memberi bobot lebih jika bisa memilih yang lebih baik dengan beberapa yang buruk seperti yang digambarkan di bawah ini. yang mengatakan seberapa baik Anda dapat membedakan b / n baik dan buruk.
Dalam contoh Anda dapat mengamati bahwa saat mengambil 70% tomat baik, kurva hitam mengambil sekitar 48% yang buruk (tidak murni), tetapi yang biru memiliki 83% buruk (tidak murni). Jadi kurva hitam memiliki skor AUC yang lebih baik dibandingkan dengan yang biru.
sumber