Katakanlah kita memiliki classifier SVM, bagaimana kita menghasilkan kurva ROC? (Seperti secara teoritis) (karena kita menghasilkan TPR dan FPR dengan masing-masing ambang). Dan bagaimana kita menentukan ambang batas optimal untuk klasifikasi SVM ini?
machine-learning
svm
RockTheStar
sumber
sumber
Jawaban:
Gunakan classifier SVM untuk mengklasifikasikan satu set contoh beranotasi, dan "satu titik" pada ruang ROC berdasarkan satu prediksi dari contoh dapat diidentifikasi. Misalkan jumlah contoh adalah 200, pertama hitung jumlah contoh dari empat kasus.
Sebagai contoh, jika konsentrasi protein tertentu di atas α% menandakan penyakit, nilai α yang berbeda menghasilkan nilai TPR dan FPR akhir yang berbeda. Nilai ambang batas dapat ditentukan secara sederhana dengan cara yang mirip dengan pencarian kisi; label contoh pelatihan dengan nilai ambang yang berbeda, latih pengklasifikasi dengan sekumpulan contoh berlabel yang berbeda, jalankan penggolong pada data uji, hitung nilai FPR, dan pilih nilai ambang yang mencakup rendah (mendekati 0) dan tinggi (dekat ke 1) FPR nilai, yaitu, mendekati 0, 0,05, 0,1, ..., 0,95, 1
(2) Hasilkan banyak set contoh beranotasi
(3) Jalankan pengklasifikasi pada set contoh
(4) Hitung titik (FPR, TPR) untuk masing-masing
(5) Gambarlah kurva ROC terakhir
Beberapa detail dapat diperiksa di http://en.wikipedia.org/wiki/Receiver_operating_characteristic .
Selain itu, kedua tautan ini bermanfaat tentang cara menentukan ambang batas optimal. Metode sederhana adalah mengambil metode dengan jumlah maksimal dari nilai positif benar dan negatif palsu. Kriteria yang lebih baik lainnya mungkin termasuk variabel lain yang melibatkan ambang yang berbeda seperti biaya keuangan, dll.
Http://www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-receiver-operating-karakteristik.html
sumber
Cara yang sangat mudah untuk memilih ambang batas adalah dengan mengambil nilai median prediksi dari kasus positif untuk satu set tes. Ini menjadi ambang batas Anda.
Ambang datang relatif dekat dengan ambang yang sama Anda akan dapatkan dengan menggunakan kurva roc di mana true positive rate (tpr) dan 1 - false positive rate (fpr) tumpang tindih. Lintas tpr (lintas) 1-fpr ini memaksimalkan benar positif sambil meminimalkan negatif palsu.
sumber
Pilih titik yang paling dekat dengan sudut kiri atas ruang ROC Anda. Sekarang ambang yang digunakan untuk menghasilkan titik ini harus yang optimal.
sumber
sumber