Saya mengalami kesulitan memahami kurva ROC.
Apakah ada keuntungan / peningkatan di area di bawah kurva ROC jika saya membangun model yang berbeda dari setiap subset unik dari set pelatihan dan menggunakannya untuk menghasilkan probabilitas? Sebagai contoh, jika memiliki nilai-nilai { a , a , a , a , b , b , b , b } , dan saya membangun model yang A dengan menggunakan suatu dari nilai-nilai 1-4 dari y dan nilai-nilai 8-9 dari y dan membangun model B dengan menggunakan data kereta tetap. Akhirnya, hasilkan probabilitas. Setiap pemikiran / komentar akan sangat dihargai.
Berikut ini adalah kode r untuk penjelasan yang lebih baik untuk pertanyaan saya:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Jadi pertanyaan saya adalah, area di bawah ROC kurva pred_combine
vs pred_full
.
Jawaban:
Saya tidak yakin saya mendapat pertanyaan, tetapi karena judulnya meminta penjelasan kurva ROC, saya akan coba.
Kurva ROC digunakan untuk melihat seberapa baik klasifikasi Anda dapat memisahkan contoh positif dan negatif dan untuk mengidentifikasi ambang batas terbaik untuk memisahkan mereka.
Untuk dapat menggunakan kurva ROC, classifier Anda harus di- rangking - yaitu, itu harus bisa memberi peringkat contoh-contoh sedemikian rupa sehingga yang dengan peringkat lebih tinggi lebih cenderung positif. Sebagai contoh, Regresi Logistik menghasilkan probabilitas, yang merupakan skor yang dapat Anda gunakan untuk peringkat.
Menggambar kurva ROC
Diberikan kumpulan data dan klasifikasi peringkat:
Gambar animasi gif yang bagus ini harus menggambarkan proses ini dengan lebih jelas
Area Di Bawah ROC
Area di bawah Kurva ROC (berbayang) secara alami menunjukkan seberapa jauh kurva dari garis dasar. Untuk garis dasar adalah 0,5, dan untuk pengklasifikasi yang sempurna adalah 1.
Anda dapat membaca lebih lanjut tentang AUC ROC dalam pertanyaan ini: Apa kepanjangan dari AUC dan apa itu?
Memilih Ambang Batas Terbaik
Saya akan menguraikan secara singkat proses memilih ambang batas terbaik, dan rincian lebih lanjut dapat ditemukan dalam referensi.
Untuk memilih ambang terbaik, Anda melihat setiap titik kurva ROC Anda sebagai classifier terpisah. Pengklasifikasi mini ini menggunakan skor yang didapat titik sebagai batas antara + dan - (yaitu mengklasifikasikan semua + poin di atas yang sekarang)
Bergantung pada fraksi pos / negatif dalam kumpulan data kami - sejajar dengan garis dasar jika 50% / 50% - Anda membangun Garis Akurasi ISO dan mengambil yang dengan akurasi terbaik.
Ini gambar yang menggambarkan hal itu dan untuk detailnya saya mengundang Anda lagi ke referensi
Referensi
sumber