Statistik validasi model umum seperti uji Kolmogorov-Smirnov (KS), AUROC , dan koefisien Gini semuanya terkait secara fungsional. Namun, pertanyaan saya berkaitan dengan pembuktian bagaimana semua ini terkait. Saya ingin tahu apakah ada yang bisa membantu saya membuktikan hubungan ini. Saya belum dapat menemukan apa pun secara online, tetapi saya benar-benar tertarik bagaimana buktinya bekerja. Sebagai contoh, saya tahu Gini = 2AUROC-1, tetapi bukti terbaik saya melibatkan menunjuk pada grafik. Saya tertarik pada bukti formal. Bantuan apa pun akan sangat dihargai!
11
Jawaban:
Entri Wikipedia untuk karakteristik operasi Penerima merujuk makalah ini untuk hasil Gini = 2AUROC-1: Hand, David J .; dan Till, Robert J. (2001); Generalisasi sederhana area di bawah kurva ROC untuk masalah klasifikasi beberapa kelas, Pembelajaran Mesin, 45, 171–186. Tapi saya khawatir saya tidak memiliki akses mudah ke sana untuk melihat seberapa dekat dengan apa yang Anda inginkan.
sumber
Menurut makalah (Adeodato, PJ L dan Melo, SB 2016), ada hubungan linier antara Area di bawah kurva KS (AUKS) dan Area di bawah kurva ROC (AUROC), yaitu:
Bukti kesetaraan disertakan dalam makalah ini.
sumber
Hasilnya Gini = 2 * AUROC-1 sulit untuk dibuktikan karena belum tentu benar. Artikel Wikipedia tentang kurva Karakteristik Operasi Penerima memberikan hasil sebagai definisi Gini, dan artikel oleh Hand and Till (dikutip oleh nealmcb) hanya mengatakan bahwa definisi grafis Gini menggunakan kurva ROC mengarah ke rumus ini.
Tangkapannya adalah bahwa definisi Gini ini digunakan dalam komunitas pembelajaran mesin dan teknik, tetapi definisi yang berbeda digunakan oleh para ekonom dan ahli demografi (kembali ke makalah asli Gini). Artikel Wikipedia tentang koefisien Gini menetapkan definisi ini, berdasarkan pada kurva Lorenz.
Sebuah makalah oleh Schechtman & Schechtman (2016) menjabarkan hubungan antara AUC dan definisi asli Gini. Tetapi untuk melihat bahwa mereka tidak dapat persis sama, anggaplah bahwa proporsi kejadian adalah p dan bahwa kita memiliki penggolong sempurna. Kurva ROC kemudian melewati sudut kiri atas dan AUCROC adalah 1. Namun, kurva (terbalik) Lorenz berjalan dari (0,0) ke ( p , 1) ke (1,1) dan Gini para ekonom adalah 1 - p / 2, yang hampir tetapi tidak tepat 1.
Jika peristiwa jarang terjadi, maka hubungan Gini = 2 * AUROC-1 hampir tetapi tidak sepenuhnya benar menggunakan definisi asli Gini. Hubungan itu hanya benar jika Gini didefinisikan ulang untuk menjadikannya benar.
sumber