Mengapa area di bawah kurva ROC kemungkinan bahwa classifier akan memberi peringkat instance "positif" yang dipilih secara acak (dari prediksi yang diambil) lebih tinggi daripada yang "secara acak" yang dipilih secara acak (dari kelas positif asli)? Bagaimana seseorang membuktikan pernyataan ini secara matematis menggunakan integral, memberikan CDF dan PDF dari distribusi kelas positif dan negatif yang sebenarnya?
probability
roc
auc
mff
sumber
sumber
Jawaban:
Hal pertama, mari kita coba mendefinisikan area di bawah kurva ROC secara formal. Beberapa asumsi dan definisi:
Kami memiliki penggolong probabilistik yang menghasilkan "skor" s (x), di mana x adalah fitur, dan s adalah fungsi monotonik peningkatan umum dari perkiraan probabilitas p (kelas = 1 | x).
k = { 0 , 1 } F k ( s )fk(s) , dengan : = pdf dari skor untuk kelas k, dengan CDFk={0,1} Fk(s)
Klasifikasi pengamatan baru diperoleh dengan mengkomposisi skor s ke ambang batas t
Selanjutnya, untuk kenyamanan matematika, mari kita pertimbangkan kelas positif (peristiwa terdeteksi) k = 0, dan negatif k = 1. Dalam pengaturan ini kita dapat mendefinisikan:
Kurva ROC kemudian merupakan plot terhadap . Dengan , kami dapat secara formal mendefinisikan area di bawah kurva ROC sebagai: Mengubah variabel ( ): F 1 ( t ) v = F 1 ( s ) A U C = ∫ 1 0 F 0 ( F - 1 1 ( v ) ) d v d v = f 1 ( s ) d s A U C = ∫ ∞ - ∞ F 0 ( s ) fF0( t ) F1( t ) v = F1( s )
Formula ini dapat dengan mudah dilihat sebagai probabilitas bahwa anggota kelas 0 yang ditarik secara acak akan menghasilkan skor yang lebih rendah daripada skor anggota kelas 1 yang ditarik secara acak.
Bukti ini diambil dari: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf
sumber
@ alebu jawabannya bagus. Tetapi notasinya tidak standar dan menggunakan 0 untuk kelas positif dan 1 untuk kelas negatif. Di bawah ini adalah hasil untuk notasi standar (0 untuk kelas negatif dan 1 untuk kelas positif):
Pdf dan cdf skor untuk kelas negatif: danf0( s ) F0( s )
Pdf dan cdf skor untuk kelas positif: danf1( s ) F1( s )
FPR =x ( s ) = 1 - F0( s )
TPR =y( s ) = 1 - F1( s )
di mana berarti ambang. Seseorang dapat menerapkan interpretasi dalam jawaban alebu untuk ekspresi terakhir.τ
sumber
Cara menghitung AUC-ROC adalah dengan memplot TPR dan FPR sebagai ambang, diubah dan menghitung area di bawah kurva itu. Tapi, mengapa area ini di bawah kurva sama dengan probabilitas ini? Mari kita asumsikan sebagai berikut:τ
Perhatikan bahwa TPR (recall) diberikan oleh: dan FPR (fallout) diberikan menjadi: .P(A>τ) P(B>τ)
Sekarang, kita plot TPR pada sumbu y dan FPR pada sumbu x, menggambar kurva untuk berbagai dan menghitung area di bawah kurva ini ( ).τ AUC
Kita mendapatkan:
Sekarang, sini hanyax FPR
Tapi kita tahu dari invers transformasi hukum bahwa untuk setiap variabel acak , jika maka . Ini mengikuti sejak mengambil variabel acak dan menerapkan CDF sendiri untuk itu mengarah ke seragam.X FX(Y)∼U Y∼X
Menggunakan fakta ini dalam persamaan (2) memberi kita:
Mengganti ini menjadi persamaan (1) kita dapatkan:
Dengan kata lain, area di bawah kurva adalah probabilitas bahwa sampel positif acak akan memiliki skor lebih tinggi daripada sampel negatif acak.
sumber