ROC vs kurva presisi dan penarikan

159

Saya mengerti perbedaan formal di antara mereka, yang ingin saya ketahui adalah ketika lebih relevan untuk menggunakan satu vs yang lain.

  • Apakah mereka selalu memberikan wawasan pelengkap tentang kinerja sistem klasifikasi / deteksi yang diberikan?
  • Kapan masuk akal untuk menyediakan keduanya, misalnya, di kertas? bukan hanya satu?
  • Adakah deskriptor alternatif (mungkin lebih modern) yang menangkap aspek relevan dari ROC dan recall presisi untuk sistem klasifikasi?

Saya tertarik pada argumen untuk kedua kasus biner dan multi-kelas (misalnya sebagai satu-vs-semua).

Amelio Vazquez-Reina
sumber
7
Makalah ini hanya harus muncul dalam konteks: biostat.wisc.edu/~page/rocpr.pdf
2
Saya mungkin menggunakan ini untuk "plug" untuk menyebutkan tesis saya sendiri di sini ... Di Leitner (2012) saya mengusulkan metrik "F-Measurated Average Precision" (FAP) (lihat hal. 65) sebagai rata-rata harmonik dari F- mengukur dan Presisi Rata-rata. Yaitu, kombinasi metrik evaluasi yang ditetapkan dengan metrik evaluasi peringkat. Dalam tesis, saya menunjukkan bahwa memaksimalkan skor FAP pada set pelatihan dapat digunakan untuk mengidentifikasi cutoff terbaik untuk membatasi tugas pencarian informasi yang tidak dibatasi (menggunakan 100-an BioCreative run!).
fnl
1
Berikut ini adalah diskusi yang bagus tentang AUC-ROC dan kurva PR pada dataset yang tidak seimbang. Ini memiliki kesimpulan yang sama dengan apa yang dikatakan dsimcha. Ketika Anda lebih peduli tentang kasus langka, Anda harus menggunakan PR.
YC

Jawaban:

207

Perbedaan utama adalah bahwa kurva ROC akan sama tidak peduli berapa pun probabilitas dasarnya, tetapi kurva PR mungkin lebih berguna dalam praktiknya untuk masalah tipe jarum atau tumpukan jerami di mana kelas "positif" lebih menarik daripada negatif kelas.

Untuk menunjukkan ini, pertama mari kita mulai dengan cara yang sangat bagus untuk mendefinisikan ketepatan, daya ingat dan kekhususan. Asumsikan Anda memiliki kelas "positif" yang disebut 1 dan kelas "negatif" yang disebut 0. adalah perkiraan Anda dari label kelas benar . Kemudian: Hal utama yang perlu diperhatikan adalah sensitivitas / recall dan spesifisitas , yang membentuk kurva ROC, adalah probabilitas dikondisikan pada label kelas sebenarnya . Oleh karena itu, mereka akan sama terlepas dari apa . Presisi adalah suatu probabilitas yang dikondisikan YY^Y P(Y=1)P(Y=1)

Precision=P(Y=1|Y^=1)Recall=Sensitivity=P(Y^=1|Y=1)Specificity=P(Y^=0|Y=0)
P(Y=1)perkiraan Anda terhadap label kelas dan karenanya akan bervariasi jika Anda mencoba pengklasifikasi Anda pada populasi yang berbeda dengan baseline yang berbeda . Namun, mungkin lebih berguna dalam praktiknya jika Anda hanya peduli pada satu populasi dengan probabilitas latar belakang yang diketahui dan kelas "positif" jauh lebih menarik daripada kelas "negatif". (Presisi IIRC populer di bidang pengambilan dokumen, di mana ini terjadi.) Ini karena langsung menjawab pertanyaan, "Berapa probabilitas bahwa ini adalah hit nyata mengingat classifier saya mengatakan itu?".P(Y=1)

Menariknya, dengan teorema Bayes, Anda dapat mengerjakan kasus di mana spesifisitas dapat sangat tinggi dan presisi sangat rendah secara bersamaan. Yang harus Anda lakukan adalah menganggap sangat dekat dengan nol. Dalam praktiknya saya telah mengembangkan beberapa pengklasifikasi dengan karakteristik kinerja ini ketika mencari jarum di tumpukan jerami urutan DNA.P(Y=1)

IMHO saat menulis makalah Anda harus memberikan kurva mana saja yang menjawab pertanyaan yang ingin Anda jawab (atau mana yang lebih menguntungkan untuk metode Anda, jika Anda sinis). Jika pertanyaan Anda adalah: "Seberapa berartinya hasil positif dari pengklasifikasi saya mengingat probabilitas dasar masalah saya ?", Gunakan kurva PR. Jika pertanyaan Anda adalah, "Seberapa baik klasifikasi ini diharapkan berkinerja secara umum, pada berbagai probabilitas baseline yang berbeda ?", Lanjutkan dengan kurva ROC.

dsimcha
sumber
10
itu penjelasan yang fantastis!
Amelio Vazquez-Reina
5
+1, wawasan hebat tentang interpretasi probabilistik Presisi, Panggilan, dan Spesifisitas.
Zhubarb
2
Jawaban yang sangat bagus! Seandainya saya bisa mencapai suara dua kali.
Pria London
6
Kalau-kalau ini tidak jelas dari komentar saya sebelumnya: Jawaban ini salah , seperti halnya kurva ROC yang menggunakan spesifisitas. Lihat, misalnya, Pengantar analisis ROC - yang juga mengisyaratkan kekurangannya seperti yang didokumentasikan dalam jawaban saya: "Banyak domain dunia nyata didominasi oleh banyak contoh negatif, sehingga kinerja di sisi paling kiri dari grafik ROC menjadi lebih menarik."
fnl
2
+0.5 @fnl. Meskipun tidak secara eksplisit salah, saya pikir jawabannya tidak ada pada inti pertanyaan; interpretasi probabilistik sangat disambut tetapi dapat diperdebatkan sehubungan dengan pertanyaan inti. Selain itu, saya tidak dapat memberikan contoh realistis umum di mana pertanyaan: " Seberapa berartinya hasil positif dari pengklasifikasi saya mengingat probabilitas dasar masalah saya? " Tidak dapat diterapkan. The " pada umumnya " perspektif ROC-AUC terlalu kabur. (Tak perlu dikatakan bahwa tidak ada yang harus digunakan pada nilai nominal untuk membangun model akhir)
usεr11852
26

Berikut adalah kesimpulan dari sebuah makalah oleh Davis & Goadrich yang menjelaskan hubungan antara ruang ROC dan PR. Mereka menjawab dua pertanyaan pertama:

Pertama, untuk dataset apa pun, kurva ROC dan kurva PR untuk algoritma yang diberikan mengandung poin yang sama. Kesetaraan ini, mengarah pada teorema mengejutkan bahwa kurva mendominasi dalam ruang ROC jika dan hanya jika itu mendominasi dalam ruang PR. Kedua, sebagai akibat wajar dari teorema kami menunjukkan adanya ruang analog PR dengan lambung cembung di ruang ROC, yang kami sebut kurva PR yang dapat dicapai. Hebatnya, ketika membangun kurva PR yang dapat dicapai, seseorang membuang titik yang sama persis dengan yang dihilangkan oleh cembung lambung dalam ruang ROC. Akibatnya, kita dapat menghitung kurva PR yang efisien secara efisien. [...] Akhirnya, kami menunjukkan bahwa algoritma yang mengoptimalkan area di bawah kurva ROC tidak dijamin untuk mengoptimalkan area di bawah kurva PR.

Dengan kata lain, pada prinsipnya, ROC dan PR sama-sama cocok untuk membandingkan hasil. Tetapi untuk contoh kasus dari hasil 20 hit dan 1980 misses mereka menunjukkan bahwa perbedaannya bisa agak drastis, seperti yang ditunjukkan pada Gambar 11 dan 12.

Angka 11 dan 12 dari Davis dan Goadrich

Hasil / kurva (I) menggambarkan hasil di mana 10 dari 20 hit berada di peringkat sepuluh besar dan 10 hit lainnya tersebar merata di 1500 peringkat pertama. Resut (II) menggambarkan hasil di mana 20 hit tersebar merata di 500 (dari 2000) peringkat pertama. Jadi dalam kasus di mana hasil "bentuk" seperti (I) lebih disukai, preferensi ini jelas dapat dibedakan dalam ruang-PR, sedangkan AUC ROC dari dua hasil hampir sama.

fnl
sumber
1
Grafik-grafik ini tidak mencerminkan (mendiskritisasi) situasi yang digambarkan, yang akan menunjukkan langkah-langkah dalam kurva ROC setiap kali hit ditemukan (setelah 10 pertama untuk kurva I). ROCCH akan terlihat seperti ini dengan Convex Hull. Demikian pula untuk PR, Precision akan menaikkan takik setiap kali hit ditemukan, kemudian membusuk selama misses, mulai dari (0,0) untuk tidak ada yang diprediksi (di atas ambang batas) jika Precision didefinisikan sebagai 0 pada titik ini (0 / 0) - kurva II seperti yang ditunjukkan adalah Presisi maks bukan presisi di setiap ambang (dan karenanya Ingat) tingkat.
David MW Powers
1
Ini sebenarnya Gambar 7 dalam versi makalah yang saya temukan. Makalah ini sebenarnya menginterpolasi kurva PR menggunakan kurva ROC. Perhatikan bahwa hasil dominasi bergantung pada asumsi bahwa recall adalah bukan nol, yang bukan merupakan kasus sampai hit pertama ditemukan, dan Presisi (sebagaimana didefinisikan dalam makalah) secara resmi tidak terdefinisi (0/0) sampai saat itu.
David MW Powers
1
Ya, kurangnya diskritisasi yang benar adalah masalahnya (meskipun plot seperti ini mungkin terjadi jika dirata-ratakan atas sejumlah besar run). Namun hasil makalah ini kurang bermakna daripada yang Anda harapkan karena masalah tidak terdefinisi, dan tidak signifikan seperti yang Anda harapkan ketika Anda baru memahami hasil dalam hal penyelamatan. Saya tidak akan pernah menggunakan PR, tapi kadang-kadang saya akan skala ke ROC atau setara menggunakan PN.
David MW Powers
1
Pertama grafik dari Gambar. 7 (11 vs 12) tidak relevan - mereka bukan grafik melangkah untuk sistem yang terlatih (sebagai contoh positif melebihi ambang pengurangan), tetapi sesuai dengan batas rata-rata karena jumlah sistem BERBEDA mendekati ketidakterbatasan. Precision dan Recall Kedua dirancang untuk pencarian web dan keduanya benar-benar MENGHARGAI jumlah (diasumsikan besar) jumlah negatif sebenarnya (Prec = TP / PP dan Rec = TP / RP). Ketiga grafik Precision and Recall benar-benar hanya menunjukkan bias timbal balik (1 / PP) vs prevalensi timbal balik (1 / RP) untuk level TP tertentu (jika Anda menghentikan pencarian web di hit yang benar TP).
David MW Powers
5
OK, jadi setelah menghapus semua keraguan saya, saya pikir perlu memberi saran kepada pembaca bahwa saya percaya jawaban @DavidMWPowers harus lebih disukai daripada saya.
fnl
12

Ada banyak kesalahpahaman tentang evaluasi. Bagian dari ini berasal dari pendekatan Machine Learning mencoba mengoptimalkan algoritma pada dataset, tanpa minat nyata pada data.

Dalam konteks medis, ini tentang hasil dunia nyata - berapa banyak orang yang Anda selamatkan dari kematian, misalnya. Dalam konteks medis Sensitivitas (TPR) digunakan untuk melihat berapa banyak kasus positif yang diambil dengan benar (meminimalkan proporsi yang terlewatkan sebagai false negative = FNR) sementara Specificity (TNR) digunakan untuk melihat berapa banyak kasus negatif yang benar. dihilangkan (meminimalkan proporsi yang ditemukan sebagai false positive = FPR). Beberapa penyakit memiliki prevalensi satu dalam sejuta. Jadi, jika Anda selalu memprediksi negatif, Anda memiliki Akurasi 0,999999 - ini dicapai oleh pelajar ZeroR sederhana yang hanya memprediksi kelas maksimum. Jika kami mempertimbangkan Recall dan Precision untuk memprediksi bahwa Anda bebas dari penyakit, maka kami memiliki Recall = 1 dan Precision = 0.999999 untuk ZeroR. Tentu saja, jika Anda membalik + ve dan -ve dan mencoba memprediksi bahwa seseorang memiliki penyakit dengan ZeroR, Anda akan mendapatkan Recall = 0 dan Precision = undef (karena Anda bahkan tidak membuat prediksi positif, tetapi seringkali orang mendefinisikan Precision sebagai 0 dalam hal ini kasus). Perhatikan bahwa Pemanggilan Kembali (+ ve Pemanggilan Kembali) dan Pembalikan Panggilan Balik (-ve Memanggil Kembali), dan TPR, FPR, TNR & FNR terkait selalu ditentukan karena kami hanya menangani masalah karena kami tahu ada dua kelas untuk dibedakan dan kami sengaja menyediakan contoh masing-masing.

Perhatikan perbedaan besar antara kanker yang hilang dalam konteks medis (seseorang meninggal dan Anda dituntut) versus kehilangan kertas dalam pencarian web (kemungkinan besar salah satu dari yang lain akan merujuknya jika itu penting). Dalam kedua kasus, kesalahan-kesalahan ini dicirikan sebagai negatif palsu, versus populasi besar negatif. Dalam kasus websearch, kami akan secara otomatis mendapatkan populasi besar negatif yang sebenarnya hanya karena kami hanya menunjukkan sejumlah kecil hasil (misalnya 10 atau 100) dan tidak ditampilkan tidak seharusnya dianggap sebagai prediksi negatif (mungkin saja 101 ), sedangkan dalam kasus tes kanker kami memiliki hasil untuk setiap orang dan tidak seperti websearch kami secara aktif mengontrol tingkat negatif palsu (tingkat).

Jadi ROC sedang menjajaki tradeoff antara positif sejati (versus negatif palsu sebagai proporsi positif nyata) dan positif palsu (versus negatif sejati sebagai proporsi negatif nyata). Ini sama dengan membandingkan Sensitivitas (+ ve Ingat) dan Spesifisitas (-ve Ingat). Ada juga grafik PN yang terlihat sama di mana kita memplot TP vs FP daripada TPR vs FPR - tetapi karena kita membuat plot square, satu-satunya perbedaan adalah angka yang kita masukkan pada skala. Mereka terkait dengan konstanta TPR = TP / RP, FPR = TP / RN di mana RP = TP + FN dan RN = FN + FP adalah jumlah Positif Nyata dan Negatif Nyata dalam dataset dan sebaliknya bias PP = TP + FP dan PN = TN + FN adalah berapa kali kita Prediksi Positif atau Prediksi Negatif. Perhatikan bahwa kita menyebut rp = RP / N dan rn = RN / N prevalensi resp positif. negatif dan pp = PP / N dan rp = RP / N bias ke respon positif.

Jika kita menjumlahkan atau rata-rata Sensitivitas dan Spesifisitas atau melihat Area Di Bawah Kurva tradeoff (setara dengan ROC hanya membalikkan sumbu x) kita mendapatkan hasil yang sama jika kita menukar kelas mana yang + ve dan + ve. Ini TIDAK berlaku untuk Precision and Recall (seperti diilustrasikan di atas dengan prediksi penyakit oleh ZeroR). Kesewenang-wenangan ini merupakan kekurangan utama dari Precision, Recall dan rata-rata mereka (apakah aritmatika, geometris atau harmonik) dan grafik pengorbanan.

PR, PN, ROC, LIFT, dan grafik lainnya diplot sebagai parameter sistem diubah. Plot klasik ini menunjuk untuk setiap sistem individu yang dilatih, seringkali dengan ambang batas yang dinaikkan atau dikurangi untuk mengubah titik di mana instance dikelompokkan positif atau negatif.

Kadang-kadang poin yang diplot dapat menjadi rata-rata lebih dari (mengubah parameter / ambang batas / algoritma) set sistem yang dilatih dengan cara yang sama (tetapi menggunakan nomor acak yang berbeda atau pengambilan sampel atau pemesanan). Ini adalah konstruksi teoretis yang memberi tahu kita tentang perilaku rata-rata sistem daripada kinerjanya pada masalah tertentu. Bagan tradeoff dimaksudkan untuk membantu kami memilih titik operasi yang benar untuk aplikasi tertentu (dataset dan pendekatan) dan ini adalah tempat ROC mendapatkan namanya (Karakteristik Operasi Penerima bertujuan untuk memaksimalkan informasi yang diterima, dalam arti informasi).

Mari kita pertimbangkan penarikan atau TPR atau TP.

TP vs FP (PN) - terlihat persis seperti plot ROC, hanya dengan nomor yang berbeda

TPR vs FPR (ROC) - TPR terhadap FPR dengan AUC tidak berubah jika +/- terbalik.

TPR vs TNR (alt ROC) - mirror image ROC sebagai TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X incs untuk contoh positif dan negatif (nonlinear stretch)

TPR vs pp (alt LIFT) - terlihat sama dengan LIFT, hanya dengan angka yang berbeda

TP vs 1 / PP - sangat mirip dengan LIFT (tetapi terbalik dengan peregangan nonlinear)

TPR vs 1 / PP - terlihat sama dengan TP vs 1 / PP (angka berbeda pada sumbu y)

TP vs TP / PP - serupa tetapi dengan ekspansi sumbu x (TP = X -> TP = X * TP)

TPR vs TP / PP - terlihat sama tetapi dengan nomor yang berbeda pada sumbu

Yang terakhir adalah Recall vs Precision!

Catatan untuk grafik ini setiap kurva yang mendominasi kurva lain (lebih baik atau setidaknya setinggi pada semua titik) akan tetap mendominasi setelah transformasi ini. Karena dominasi berarti "setidaknya setinggi" di setiap titik, kurva yang lebih tinggi juga memiliki "setidaknya setinggi" suatu Area di bawah Kurva (AUC) karena juga mencakup area di antara kurva. Kebalikannya tidak benar: jika kurva berpotongan, berlawanan dengan sentuhan, tidak ada dominasi, tetapi satu AUC masih bisa lebih besar dari yang lain.

Semua transformasi yang dilakukan adalah merefleksikan dan / atau memperbesar dengan cara yang berbeda (non-linear) ke bagian tertentu dari grafik ROC atau PN. Namun, hanya ROC yang memiliki interpretasi bagus Area di bawah Kurva (probabilitas bahwa peringkat positif lebih tinggi daripada negatif - statistik Mann-Whitney U) dan Jarak di atas Kurva (probabilitas bahwa keputusan berdasarkan informasi dibuat daripada menebak - Youden J statistik sebagai bentuk dikotomis Informedness).

Secara umum, tidak perlu menggunakan kurva tradeoff PR dan Anda bisa memperbesar ke kurva ROC jika diperlukan detail. Kurva ROC memiliki properti unik yang diagonal (TPR = FPR) mewakili peluang, bahwa Jarak di atas garis peluang (DAC) mewakili Informasi atau probabilitas keputusan yang diinformasikan, dan Area di bawah Kurva (AUC) mewakili Peringkat atau probabilitas peringkat berpasangan yang benar. Hasil ini tidak berlaku untuk kurva PR, dan AUC terdistorsi untuk Penarikan kembali atau TPR yang lebih tinggi seperti dijelaskan di atas. PR AUC menjadi lebih besar tidak menyiratkan ROC AUC lebih besar dan dengan demikian tidak menyiratkan peningkatan Peringkat (probabilitas peringkat +/- pasangan diprediksi dengan benar - yaitu seberapa sering ia memprediksi + ves di atas -ves) dan tidak menyiratkan peningkatan Informedness (probabilitas prediksi informasi daripada tebakan acak - yaitu seberapa sering ia tahu apa yang dilakukannya ketika membuat prediksi).

Maaf - tidak ada grafik! Jika ada yang ingin menambahkan grafik untuk menggambarkan transformasi di atas, itu akan bagus! Saya memiliki beberapa dokumen tentang ROC, LIFT, BIRD, Kappa, F-Measure, Informedness, dll. Tetapi mereka tidak disajikan dengan cara ini walaupun ada ilustrasi ROC vs LIFT vs BIRD vs RP di https : //arxiv.org/pdf/1505.00401.pdf

PEMBARUAN: Untuk menghindari mencoba memberikan penjelasan lengkap dalam jawaban atau komentar yang terlalu panjang, berikut adalah beberapa makalah saya "menemukan" masalah dengan Precision vs Recall tradeoffs inc. F1, mendapatkan Informedness dan kemudian "mengeksplorasi" hubungan dengan ROC, Kappa, Signifikansi, DeltaP, AUC, dll. Ini adalah masalah yang dialami salah satu siswa saya pada 20 tahun yang lalu (Entwisle) dan banyak lagi sejak menemukan contoh dunia nyata dari mereka sendiri di mana ada bukti empiris bahwa pendekatan R / P / F / A mengirim pembelajar dengan cara yang SALAH, sementara Informedness (atau Kappa atau Korelasi dalam kasus-kasus yang sesuai) mengirim mereka dengan cara yang BENAR - sekarang melintasi puluhan bidang. Ada juga banyak makalah yang baik dan relevan oleh penulis lain tentang Kappa dan ROC, tetapi ketika Anda menggunakan Kappas versus ROC AUC versus ROC Tinggi (Informedness or Youden ' s J) diklarifikasi dalam daftar makalah 2012 saya (banyak makalah penting dari orang lain dikutip di dalamnya). Makalah Bookmaker 2003 diperoleh untuk pertama kalinya formula untuk Informedness untuk kasus multiclass. Makalah 2013 mendapatkan versi multikelas dari Adaboost yang diadaptasi untuk mengoptimalkan Informedness (dengan tautan ke Weka yang dimodifikasi yang menampung dan menjalankannya).

Referensi

1998 Penggunaan statistik saat ini dalam evaluasi parser NLP. J Entwisle, DMW Powers - Prosiding Konferensi Bersama tentang Metode Baru dalam Pemrosesan Bahasa: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Dikutip oleh 15

2003 Recall & Precision versus The Bookmaker. DMW Powers - Konferensi Internasional tentang Ilmu Kognitif: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Dikutip oleh 46

Evaluasi 2011: dari ketepatan, daya ingat dan pengukuran-F hingga ROC, informasi, ketajaman dan korelasi. DMW Powers - Jurnal Teknologi Pembelajaran Mesin 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Dikutip oleh 1749

2012 Masalah dengan kappa. DMW Powers - Prosiding Konferensi ke-13 ACL Eropa: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Dikutip oleh 63

ROC-ConCert 2012: Pengukuran Konsistensi dan Kepastian Berbasis ROC. DMW Powers - Kongres Musim Semi tentang Rekayasa dan Teknologi (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Dikutip oleh 5

2013 ADABOOK & MULTIBOOK:: Adaptive Boosting with Chance Correction. DMW Powers- ICINCO Konferensi Internasional tentang Informatika dalam Kontrol, Otomasi dan Robotika http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Dikutip oleh 4

David MW Powers
sumber
> "area di bawah kurva mewakili Peringkat atau probabilitas peringkat berpasangan yang benar" Saya kira, di situlah kami tidak setuju - ROC hanya menunjukkan kualitas peringkat dalam plot . Namun, dengan AUC PR adalah nomor tunggal yang segera memberi tahu saya jika peringkat lebih disukai (yaitu, hasil yang saya lebih disukai daripada hasil II). AUC ROC tidak memiliki properti ini.
fnl
Hasil dominasi fnl mengutip bahwa KETIKA DI didefinisikan, Jika satu kurva mendominasi dalam ROC, itu terjadi dalam PR dan sebaliknya, dan ini berarti ia juga memiliki area yang lebih tinggi di keduanya, dan dengan demikian tidak ada perbedaan kualitatif antara ROC dan PR AUC. Kutipan tentang Peringkat (Mann-Whitney U) adalah probabilitas kuantitatif hasil mapan (bagian dari uji signifikansi) yang direkomendasikan cukup independen dari ROC, tetapi kemudian ditemukan menjadi ROC AUC. Demikian pula Informedness awalnya didefinisikan secara independen, dan kemudian terbukti sesuai dengan ketinggian titik operasi ROC. PR tidak memiliki hasil seperti itu.
David MW Powers
1
Seperti yang telah saya katakan sebelumnya ini hanya masalah penskalaan dalam kondisi dominasi ("jauh lebih besar" karena dikalikan dengan jumlah besar seperti yang saya jelaskan secara rinci), tetapi dalam kondisi non-dominasi, AUC PR menyesatkan dan AUC ROC adalah satu-satunya yang memiliki interpretasi probabilistik yang tepat (Mann-Whitney U atau Peringkat), dengan kasus titik operasi tunggal yang sesuai dengan Gini (atau setara dengan Youden's J atau Informedness, setelah penskalaan).
David MW Powers
1
Jika kita menganggap AUC titik operasi tunggal (SOC) untuk kesederhanaan, maka Koefisien Gini = AUC = (TP / RP + TN / RN) / 2 dan Informedness = Youden J = TP / RP + TN / RN - 1 = Sensitivitas + Spesifisitas -1 = TPR + TNF -1 = Recall + Inverse Recall - 1 dll. Memaksimalkan keduanya sama, tetapi yang terakhir adalah probabilitas keputusan yang diinformasikan (sengaja salah jika -ve). Jika RN dan TN keduanya menjadi tak terhingga dengan TN >> FP maka TN / RN -> 1 dan membatalkan sehingga Informedness = Ingat dalam kasus yang Anda kutip. Jika sebaliknya kelas besar adalah RP dan TP >> FN maka TP / RP -> 1 dan Informedness = Inverse Recall. Lihat referensi.
David MW Powers
1
Ini adalah jawaban yang sangat membantu David Powers. Tapi maafkan ketidaktahuan saya, ketika Anda mengatakan, 'Secara umum, tidak perlu menggunakan kurva tradeoff PR dan Anda dapat memperbesar ke kurva ROC jika diperlukan detail.', Bagaimana tepatnya saya melakukan itu dan Anda bisa memberikan lebih banyak lagi detail tentang apa yang Anda maksud? Apakah ini berarti saya dapat menggunakan kurva ROC dalam kasus yang sangat tidak seimbang? 'Memberi FPR atau TPR bobot yang lebih tinggi akan menghasilkan skor AUC ROC dengan perbedaan hasil yang lebih besar, poin yang luar biasa!' Bagaimana saya melakukan ini dengan ROC saya?
Christopher John