AIC dan c-statistik mencoba menjawab pertanyaan yang berbeda. (Juga beberapa masalah dengan c-statistik telah diangkat dalam beberapa tahun terakhir, tapi saya akan mengesampingkannya)
Secara kasar:
- AIC memberitahu Anda seberapa baik model yang cocok Anda untuk spesifik biaya mis-klasifikasi.
- AUC memberi tahu Anda seberapa baik model Anda akan bekerja, rata-rata, di semua biaya kesalahan klasifikasi.
Ketika Anda menghitung AIC Anda memperlakukan logistik Anda memberikan prediksi katakanlah 0,9 menjadi prediksi dari 1 (yaitu lebih mungkin 1 dari 0), namun itu tidak perlu. Anda bisa mengambil skor logistik Anda dan mengatakan "apa pun di atas 0,95 adalah 1, semuanya di bawah adalah 0". Mengapa kamu melakukan ini? Nah ini akan memastikan bahwa Anda hanya memprediksi satu ketika Anda benar-benar sangat percaya diri. Nilai positif palsu Anda akan sangat rendah, tetapi negatif palsu Anda akan meroket. Dalam beberapa situasi ini bukan hal yang buruk - jika Anda akan menuduh seseorang melakukan penipuan, Anda mungkin ingin benar-benar yakin terlebih dahulu. Juga, jika sangat mahal untuk menindaklanjuti hasil positif, maka Anda tidak ingin terlalu banyak.
Inilah sebabnya mengapa ini berkaitan dengan biaya. Ada biaya ketika Anda mengklasifikasikan 1 sebagai 0 dan biaya ketika Anda mengklasifikasikan 0 sebagai 1. Biasanya (dengan asumsi Anda menggunakan pengaturan default), AIC untuk regresi logistik merujuk pada kasus khusus ketika kedua klasifikasi salah sama mahal. Artinya, regresi logistik memberi Anda jumlah keseluruhan prediksi yang benar terbaik, tanpa preferensi untuk positif atau negatif.
Kurva ROC digunakan karena ini memplot nilai positif benar terhadap false positif untuk menunjukkan bagaimana kinerja classifier jika Anda menggunakannya di bawah persyaratan biaya yang berbeda. Statistik-c muncul karena setiap kurva ROC yang terletak persis di atas yang lain jelas merupakan penggolong yang mendominasi. Oleh karena itu intuitif untuk mengukur area di bawah kurva sebagai ukuran seberapa baik pengklasifikasi secara keseluruhan.
Jadi pada dasarnya, jika Anda tahu biaya Anda saat memasang model, gunakan AIC (atau serupa). Jika Anda hanya membuat skor, tetapi tidak menentukan ambang diagnostik, maka pendekatan AUC diperlukan (dengan peringatan berikut tentang AUC itu sendiri).
Jadi apa yang salah dengan c-statistik / AUC / Gini?
Selama bertahun-tahun AUC adalah pendekatan standar, dan masih banyak digunakan, namun ada beberapa masalah dengan itu. Satu hal yang membuatnya sangat menarik adalah bahwa itu sesuai dengan tes Wilcox pada peringkat klasifikasi. Itu diukur probabilitas bahwa skor anggota yang dipilih secara acak dari satu kelas akan lebih tinggi daripada anggota yang dipilih secara acak dari kelas lain. Masalahnya adalah, itu hampir tidak pernah menjadi metrik yang berguna.
Masalah paling kritis dengan AUC dipublikasikan oleh David Hand beberapa tahun yang lalu. (Lihat referensi di bawah) Inti masalahnya adalah bahwa sementara AUC melakukan rata-rata atas semua biaya, karena sumbu x dari kurva ROC adalah False Positive Rate, bobot yang diberikannya pada rezim biaya yang berbeda bervariasi di antara pengklasifikasi. Jadi, jika Anda menghitung AUC pada dua regresi logitic yang berbeda itu tidak akan mengukur "hal yang sama" dalam kedua kasus. Ini berarti tidak masuk akal untuk membandingkan model berdasarkan AUC.
Hand mengusulkan perhitungan alternatif menggunakan pembobotan biaya tetap, dan menyebut ini ukuran H - ada paket dalam R yang disebut hmeasure
yang akan melakukan perhitungan ini, dan saya percaya AUC untuk perbandingan.
Beberapa referensi tentang masalah dengan AUC:
Kapan area di bawah kurva karakteristik operasi penerima ukuran yang tepat untuk kinerja classifier? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Saya menemukan ini sebagai penjelasan yang sangat mudah diakses dan bermanfaat)
Kertas tangan yang dikutip tidak memiliki dasar dalam penggunaan dunia nyata dalam diagnostik klinis. Dia memiliki kurva teoritis dengan 0,5 AUC, yang merupakan penggolong sempurna. Dia menggunakan satu set data dunia nyata, di mana model akan dibuang begitu saja, karena mereka begitu buruk, dan ketika menghitung interval kepercayaan di sekitar pengukuran (data tidak disediakan tetapi disimpulkan) cenderung acak . Mengingat kurangnya data dunia nyata (atau bahkan simulasi yang masuk akal), ini adalah kertas kosong. Saya pribadi telah terlibat dalam analisis ribuan pengklasifikasi di antara ribuan pasien (dengan derajat kebebasan yang memadai). Dalam konteks itu, argumennya tidak masuk akal.
Ia juga rentan terhadap superlatif (bukan pertanda baik dalam konteks apa pun), dan membuat generalisasi yang tidak didukung, misalnya, biaya tidak dapat diketahui. Dalam kedokteran, ada biaya yang diterima, seperti 10% nilai prediktif positif untuk tes skrining, dan $ 100.000 per tahun yang disesuaikan dengan kualitas untuk intervensi terapeutik. Saya merasa sulit untuk percaya bahwa dalam penilaian kredit, biaya tidak dipahami dengan baik. Jika dia mengatakan (tidak jelas) bahwa masing-masing individu positif palsu dan negatif palsu membawa biaya yang berbeda, sementara itu adalah topik yang sangat menarik, itu tidak menyerupai pengklasifikasi biner.
Jika maksudnya adalah bahwa ROC penting, maka bagi pengguna yang canggih, itu sudah jelas, dan pengguna yang tidak canggih memiliki banyak hal yang perlu dikhawatirkan, misalnya, memasukkan prevalensi ke dalam nilai prediksi positif dan negatif.
Akhirnya, saya bingung untuk memahami bagaimana berbagai pengklasifikasi tidak dapat dinilai berdasarkan berbagai, cut-off dunia nyata ditentukan oleh penggunaan klinis (atau keuangan) dari model. Jelas, cut-off yang berbeda akan dipilih untuk masing-masing model. Model tidak akan dibandingkan hanya berdasarkan AUC. Pengklasifikasi tidak penting, tetapi bentuk kurva tidak.
sumber
Bagi saya, intinya adalah bahwa sementara C-statistik (AUC) mungkin bermasalah ketika membandingkan model dengan variabel independen yang berbeda (analog dengan apa yang disebut Tangan sebagai "pengklasifikasi"), itu masih berguna dalam aplikasi lain. Misalnya, studi validasi di mana model yang sama dibandingkan di seluruh populasi studi yang berbeda (kumpulan data). Jika suatu model atau indeks risiko / skor terbukti sangat diskriminatif dalam satu populasi, tetapi tidak pada populasi lain, ini bisa berarti menunjukkan bahwa itu bukan alat yang sangat baik secara umum, tetapi mungkin dalam kasus tertentu.
sumber