Interpretasi area di bawah kurva PR

10

Saat ini saya membandingkan tiga metode dan saya memiliki Akurasi, auROC dan auPR sebagai metrik. Dan saya memiliki hasil sebagai berikut:

Metode A - acc: 0.75, auROC: 0.75, auPR: 0.45

Metode B - acc: 0.65, auROC: 0.55, auPR: 0.40

Metode C - acc: 0,55, auROC: 0,70, auPR: 0,65

Saya memiliki pemahaman yang baik tentang keakuratan dan auROC (untuk mengingat dengan baik saya sering mencoba memunculkan kalimat seperti "auROC = karakterisasi kemampuan untuk memprediksi kelas positif dengan baik", sementara tidak sepenuhnya benar itu membantu saya mengingat). Saya belum pernah memiliki data auPR sebelumnya dan sementara saya mengerti bagaimana itu dibangun saya tidak bisa mendapatkan "perasaan" di belakangnya.

Sebenarnya saya gagal memahami mengapa metode C memiliki skor yang sangat tinggi untuk auPR sementara menjadi buruk / rata-rata untuk akurasi dan auPR.

Jika seseorang dapat membantu saya memahaminya sedikit lebih baik dengan penjelasan sederhana yang akan sangat hebat. Terima kasih.

AdrienNK
sumber

Jawaban:

11

Satu sumbu kurva ROC dan PR adalah sama, yaitu TPR: berapa banyak kasus positif yang telah diklasifikasikan dengan benar dari semua kasus positif dalam data.

Sumbu lainnya berbeda. ROC menggunakan FPR, yaitu berapa banyak yang secara positif dinyatakan salah dari semua negatif dalam data. Kurva PR menggunakan presisi: berapa banyak positif sebenarnya dari semua yang telah diprediksi positif. Jadi pangkal sumbu kedua berbeda. ROC menggunakan apa yang ada dalam data, PR menggunakan apa yang ada dalam prediksi sebagai dasar.

Kurva PR dianggap lebih informatif ketika ada ketidakseimbangan kelas tinggi dalam data, lihat makalah ini http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

inzl
sumber
1
Untuk auROC 0,5 adalah minimum (karena lebih sedikit akan lebih baik dengan membalikkan predikat). Apakah ada beberapa aturan serupa dengan auPR? Juga mengenai pengukuran saya: apa yang bisa saya tegaskan dengan melihat skor Metode C? Karena saya bekerja dengan dataset yang sama dalam 3 kasus dan dari sudut pandang saya untuk dataset dengan distribusi yang kurang lebih merata di antara kelas-kelas, tidak masuk akal bahwa auROC dan auPR tidak mengikuti peringkat yang sama untuk saya metode.
AdrienNK
1
berapa skor pengelompokan acak dalam auPR? Saya tahu ini 0,5 di auROC tapi saya tidak bisa tahu di auPR.
Jack Twain
9
Skor auPR yang diharapkan untuk pengelompokan acak hanyalah proporsi dari kasus positif sejati dalam dataset. Itu adalah presisi yang Anda harapkan jika Anda menebak kelasnya, dan Anda akan mendapatkan presisi itu untuk semua level recall. Jadi kurva PR yang diharapkan untuk pengelompokan acak hanyalah sebuah persegi panjang dengan panjang sisi "proporsi positif sejati" x 1. Misalnya, jika dataset Anda berisi 10% kasus positif dan 90% kasus negatif, AuPR yang diharapkan dalam peluang adalah 0,1.
Lizzie Silver