Apakah AUC kemungkinan mengklasifikasikan dengan benar contoh yang dipilih secara acak dari setiap kelas?

10

Saya membaca keterangan ini di sebuah makalah dan belum pernah melihat AUC dijelaskan dengan cara ini di tempat lain. Apakah ini benar? Apakah ada bukti atau cara sederhana untuk melihatnya?

Gambar. 2 menunjukkan akurasi prediksi variabel dikotomis dinyatakan dalam hal area di bawah kurva karakteristik penerima-operasi (AUC), yang setara dengan probabilitas mengklasifikasikan dengan benar dua pengguna yang dipilih secara acak satu dari masing-masing kelas (misalnya, pria dan wanita ).

Tampaknya bagi saya itu tidak benar, karena untuk AUC = 0,5, yang di atas akan menyarankan seseorang memiliki probabilitas 50% untuk memprediksi dengan benar koin balik dua kali berturut-turut, tetapi pada kenyataannya, Anda hanya memiliki peluang 25% memprediksi dengan benar dua koin membalik berturut-turut. Setidaknya, begitulah cara saya memikirkan pernyataan ini.

thecity2
sumber
1
Saya menghargai konsep yang diungkapkan dalam judul tidak cukup benar, tetapi untuk mencocokkan kutipan, bukankah seharusnya mengatakan "kemungkinan mengklasifikasikan dengan benar ..." daripada hanya "probabilitas mengklasifikasikan"? Itu membingungkan saya saat pertama kali saya membacanya.
Silverfish
1
Itu sudah judul yang cukup panjang! Saya sebenarnya mempertimbangkan menambahkan "dengan benar" percaya atau tidak. :)
thecity2

Jawaban:

14

Kutipannya sedikit salah. Pernyataan yang benar adalah bahwa ROC AUC adalah probabilitas contoh positif yang dipilih secara acak berperingkat lebih tinggi daripada contoh negatif yang dipilih secara acak. Ini karena hubungan antara ROC AUC dan uji peringkat Wilcoxon.

Anda akan menemukan diskusi dalam Tom Fawcett " Pengantar Analisis ROC " yang mencerahkan.

Sycorax berkata Reinstate Monica
sumber
8

Deskripsi penulis tidak sepenuhnya akurat. Area di bawah kurva ROC sebenarnya sama dengan probabilitas bahwa contoh positif yang dipilih secara acak memiliki skor risiko yang lebih tinggi daripada contoh negatif yang dipilih secara acak. Ini tidak harus ada hubungannya dengan klasifikasi, itu hanya ukuran pemisahan antara distribusi skor.

Sebagai contoh koin Anda, bayangkan Anda memiliki dua koin dan masing-masing memiliki skor yang terkait dengannya. Anda kemudian membalik kedua koin sampai satu muncul kepala dan ekor lainnya (karena kami mengkondisikan pada hasil yang berbeda). Ini setara dengan memiliki model yang melakukan penilaian acak, dan probabilitas bahwa koin yang muncul memiliki skor yang lebih tinggi (atau lebih rendah) adalah 1/2.

dsaxton
sumber
2

Deskripsi yang Anda baca sudah benar, meskipun saya tidak suka kata-katanya. Area di bawah kurva ROC (AUC) adalah probabilitas untuk mengklasifikasi pasangan individu secara acak dengan benar ke dalam kelas 1 dari kelas 2. Ini adalah statistik berbasis peringkat, jadi jika Anda harus menebak apakah satu individu dalam pasangan memiliki peringkat lebih tinggi daripada yang lain, itu hanya peluang 50% jika menebak secara acak. AUC identik [1] dengan statistik uji tandatangan Wilcoxon, dan ini dapat digunakan untuk menggambarkan artinya.

[1]: Mason & Graham (2002). Area di bawah kurva karakteristik operasi relatif (ROC) dan level operasi relatif (ROL): Signifikansi dan interpretasi statistik. Jurnal Triwulan dari Masyarakat Meteorologi Kerajaan. 128: 2145–2166.

prince_of_pears
sumber
1

Seperti yang ditunjukkan orang lain, AUC mengungkapkan probabilitas bahwa contoh yang dipilih secara acak dari kelas positif akan menerima, dari pengklasifikasi, skor yang lebih tinggi daripada contoh yang dipilih secara acak dari kelas negatif.

Untuk bukti properti ini, lihat: Cara memperoleh rumus matematika untuk AUC?

Atau sumber yang digunakan untuk jawaban itu: D. Hand, 2009, Mengukur kinerja classifier: alternatif yang koheren ke area di bawah kurva ROC

alebu
sumber