Dasar pemikiran menggunakan AUC?

10

Terutama di sisi yang berorientasi pada ilmu komputer dari literatur pembelajaran mesin, AUC (area di bawah kurva karakteristik operator penerima) adalah kriteria populer untuk mengevaluasi pengklasifikasi. Apa justifikasi untuk menggunakan AUC? Misalnya, apakah ada fungsi kerugian tertentu yang keputusan optimalnya adalah pengklasifikasi dengan AUC terbaik?

charles.y.zheng
sumber
1
AUC adalah fungsi kerugian, jelas bahwa untuk fungsi kerugian ini keputusan optimal adalah pengklasifikasi dengan AUC terbaik.
robin girard
1
@robingirard Tidak, karena tidak dapat dibedakan, yaitu Anda tidak dapat mengoptimalkannya secara langsung.
cpury

Jawaban:

15

Untuk pengklasifikasi biner digunakan untuk menentukan peringkat (yaitu untuk setiap contoh kami memiliki dalam interval ) dari mana AUC diukur, AUC setara dengan probabilitas bahwa mana adalah contoh positif sejati dan adalah contoh negatif sejati. Dengan demikian, memilih model dengan AUC maksimal meminimalkan kemungkinan . Artinya, meminimalkan hilangnya peringkat negatif sejati, setidaknya sebesar positif sejati.e C ( e ) [ 0 , 1 ] C ( e 1 ) > C ( e 0 ) e 1 e 0 C ( e 0 ) C ( e 1 )CeC(e)[0,1]C(e1)>C(e0)e1e0C(e0)C(e1)

erik
sumber
0

Mari kita ambil contoh sederhana mengidentifikasi tomat baik dari kumpulan tomat baik + buruk. Katakanlah jumlah tomat baik adalah 100, dan tomat buruk adalah 1000, Jadi totalnya 1100. Sekarang tugas Anda adalah mengidentifikasi sebanyak mungkin tomat baik. Salah satu cara untuk mendapatkan semua tomat yang baik adalah dengan mengambil semua 1.100 tomat. Tetapi jelas mengatakan Anda tidak dapat membedakan b / n baik vs buruk .

Jadi, Apa cara yang tepat untuk membedakan - perlu mendapatkan yang bagus sambil mengambil sangat sedikit yang buruk , Jadi kita perlu mengukur sesuatu, yang bisa mengatakan berapa banyak yang bagus yang kita ambil dan juga mengatakan berapa jumlah yang buruk dihitung dalam Itu. Ukuran AUC memberi bobot lebih jika bisa memilih yang lebih baik dengan beberapa yang buruk seperti yang digambarkan di bawah ini. yang mengatakan seberapa baik Anda dapat membedakan b / n baik dan buruk.

Dalam contoh Anda dapat mengamati bahwa saat mengambil 70% tomat baik, kurva hitam mengambil sekitar 48% yang buruk (tidak murni), tetapi yang biru memiliki 83% buruk (tidak murni). Jadi kurva hitam memiliki skor AUC yang lebih baik dibandingkan dengan yang biru. masukkan deskripsi gambar di sini

yugandhar
sumber
Bagaimana ini menjawab pertanyaan?
Vivek Subramanian
Saya telah menulis dengan intuisi AUC bahwa, itu membantu memberikan skor tunggal untuk mengidentifikasi yang baik (1 dalam klasifikasi biner) di seluruh populasi sambil mengurangi jumlah positif palsu. Bantu saya bagaimana saya bisa melakukan yang lebih baik untuk ini.
yugandhar