Saya menerapkan regresi logistik pada data saya di SAS dan di sini adalah kurva ROC dan tabel klasifikasi.
Saya nyaman dengan angka-angka di tabel klasifikasi, tetapi tidak yakin apa yang ditunjukkan oleh kurva roc dan area di bawahnya. Penjelasan apa pun akan sangat dihargai.
Ketika Anda melakukan regresi logistik, Anda diberi dua kelas yang diberi kode dan . Sekarang, Anda menghitung probabilitas yang memberikan beberapa varialbes yang jelas, seseorang yang termasuk dalam kelas yang diberi kode . Jika sekarang Anda memilih ambang probabilitas dan mengklasifikasikan semua individu dengan probabilitas lebih besar dari ambang ini sebagai kelas dan di bawah sebagai0 1 1 010110, Anda dalam banyak kasus akan membuat kesalahan karena biasanya dua kelompok tidak dapat didiskriminasi dengan sempurna. Untuk ambang ini sekarang Anda dapat menghitung kesalahan dan apa yang disebut sensitivitas dan spesifisitas. Jika Anda melakukan ini untuk banyak ambang, Anda dapat membuat kurva ROC dengan memplot sensitivitas terhadap 1-Spesifisitas untuk banyak kemungkinan ambang. Area di bawah kurva berperan jika Anda ingin membandingkan metode berbeda yang mencoba membedakan antara dua kelas, misalnya analisis diskriminan atau model probit. Anda dapat membuat kurva ROC untuk semua model ini dan model dengan area tertinggi di bawah kurva dapat dilihat sebagai model terbaik.
Jika Anda perlu mendapatkan pemahaman yang lebih dalam, Anda juga dapat membaca jawaban dari pertanyaan lain tentang kurva ROC dengan mengklik di sini.
Bagaimana perbedaan area di bawah kurva ROC dari tingkat yang benar dalam tabel klasifikasi?
Günal
2
Tabel hanya menunjukkan yang benar dan yang tidak benar untuk satu ambang batas. Namun, kurva AUROC adalah ukuran dari metode klasifikasi lengkap dan benar dan tidak benar untuk berbagai ambang batas.
random_guy
Baik untuk mendengar bahwa!
random_guy
6
AUC pada dasarnya hanya memberi tahu Anda seberapa sering undian acak dari probabilitas respons prediksi Anda pada data berlabel 1 Anda akan lebih besar daripada undian acak dari probabilitas respons prediksi Anda pada data berlabel 0 Anda.
Model regresi logistik adalah metode estimasi probabilitas langsung. Klasifikasi seharusnya tidak memainkan peran dalam penggunaannya. Klasifikasi apa pun yang tidak didasarkan pada penilaian utilitas (fungsi kerugian / biaya) pada masing-masing subjek tidak sesuai kecuali dalam keadaan darurat yang sangat khusus. Kurva ROC tidak membantu di sini; tidak ada sensitivitas atau spesifisitas yang, seperti akurasi klasifikasi keseluruhan, adalah aturan penilaian akurasi yang tidak tepat yang dioptimalkan oleh model palsu tidak dilengkapi dengan estimasi kemungkinan maksimum.
@ Frank Harrell: Bisakah Anda menguraikan perhitungan tentang intersep serta komentar mengenai margin kesalahan. Terima kasih!
Juli
@FrankHarrell apakah saran Anda bahwa kami memerlukan setidaknya 15p pengamatan berlaku jika kami akhirnya melakukan regresi ridge untuk mengkalibrasi model? Pemahaman saya adalah bahwa kita mengganti p kemudian dengan dimensi efektif.
Lepidopterist
Benar, dan saya akan mengatakan bahwa Anda menggunakan penalti seperti kuadrat (punggungan) penalti untuk memperkirakan parameter, yang menghasilkan kalibrasi yang lebih baik
AUC pada dasarnya hanya memberi tahu Anda seberapa sering undian acak dari probabilitas respons prediksi Anda pada data berlabel 1 Anda akan lebih besar daripada undian acak dari probabilitas respons prediksi Anda pada data berlabel 0 Anda.
sumber
Model regresi logistik adalah metode estimasi probabilitas langsung. Klasifikasi seharusnya tidak memainkan peran dalam penggunaannya. Klasifikasi apa pun yang tidak didasarkan pada penilaian utilitas (fungsi kerugian / biaya) pada masing-masing subjek tidak sesuai kecuali dalam keadaan darurat yang sangat khusus. Kurva ROC tidak membantu di sini; tidak ada sensitivitas atau spesifisitas yang, seperti akurasi klasifikasi keseluruhan, adalah aturan penilaian akurasi yang tidak tepat yang dioptimalkan oleh model palsu tidak dilengkapi dengan estimasi kemungkinan maksimum.
sumber
Saya bukan penulis blog ini dan saya menemukan blog ini sangat membantu: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
Menerapkan penjelasan ini ke data Anda, contoh positif rata-rata memiliki sekitar 10% dari contoh negatif mendapat skor lebih tinggi dari itu.
sumber