TL; DR
Akurasi adalah aturan penilaian yang tidak tepat. Jangan gunakan itu.
Versi yang sedikit lebih panjang
Sebenarnya, akurasi bahkan bukan aturan penilaian. Jadi, bertanya apakah itu (benar-benar) layak adalah kesalahan kategori. Yang paling bisa kita katakan adalah bahwa di bawah asumsi tambahan , akurasi konsisten dengan aturan penilaian yang tidak tepat, terputus-putus dan menyesatkan. (Jangan gunakan itu.)
Kebingunganmu
Kebingungan Anda berasal dari fakta bahwa kesalahan klasifikasi kehilangan sesuai dengan kertas yang Anda sebutkan juga bukan aturan penilaian.
Rinciannya: aturan penilaian vs. evaluasi klasifikasi
Mari kita perbaiki terminologi. Kami tertarik pada hasil biner , dan kami memiliki prediksi probabilistik . Kita tahu bahwa , tetapi model kami mungkin atau mungkin tidak tahu itu.q = P ( Y = 1 ) ∈ ( 0 , 1 ) P ( Y = 1 ) = η > 0,5 qy∈ { 0 , 1 }qˆ= Pˆ( Y= 1 ) ∈ ( 0 , 1 )P( Y= 1 ) = η> 0,5qˆ
Sebuah aturan skoring adalah pemetaan yang membutuhkan prediksi probabilistik dan hasil untuk kerugian, yqˆy
s : ( qˆ, y) ↦ s ( qˆ, y) .
q = η s q = ηs adalah tepat jika dioptimalkan dengan harapan oleh . ( "Optimized" biasanya berarti "diminimalkan", tapi tanda-tanda beberapa penulis sandal dan mencoba untuk memaksimalkan aturan mencetak gol.) adalah ketat tepat jika dioptimalkan dengan harapan hanya oleh .qˆ= ηsqˆ=η
Kami biasanya akan mengevaluasi pada banyak prediksi dan hasil yang sesuai dan rata-rata untuk memperkirakan ekspektasi ini.sqˆiyi
Sekarang, apa itu akurasi ? Akurasi tidak mengambil prediksi probabilistik sebagai argumen. Dibutuhkan klasifikasiyˆ∈{0,1} dan hasil:
a:(yˆ,y)↦a(yˆ,y)={1,0,yˆ=yyˆ≠y.
Oleh karena itu, akurasi bukan aturan penilaian . Ini adalah evaluasi klasifikasi. (Ini adalah istilah yang baru saya temukan; jangan pergi mencarinya di literatur.)
Sekarang, tentu saja kita dapat mengambil prediksi probabilistik seperti dan mengubahnya menjadi klasifikasi . Tetapi untuk melakukannya, kita perlu asumsi tambahan yang disinggung di atas. Misalnya, sangat umum untuk menggunakan ambang dan mengklasifikasikan:qˆyˆθ
yˆ(qˆ,θ):={1,0,qˆ≥θqˆ<θ.
Nilai ambang yang sangat umum adalah . Perhatikan bahwa jika kita menggunakan ambang ini dan kemudian mengevaluasi keakuratan atas banyak prediksi (seperti di atas) dan hasil yang sesuai , maka kita tiba tepat pada hilangnya kesalahan klasifikasi seperti yang Buja et al. Dengan demikian, kerugian kesalahan klasifikasi juga bukan aturan penilaian, tetapi evaluasi klasifikasi.θ=0.5qˆiyi
Jika kita menggunakan algoritme klasifikasi seperti di atas, kita dapat mengubah evaluasi klasifikasi menjadi aturan penilaian. Intinya adalah bahwa kita membutuhkan asumsi tambahan dari classifier. Dan bahwa kehilangan akurasi atau kesalahan klasifikasi atau penilaian klasifikasi apa pun yang kita pilih dapat bergantung sedikit pada prediksi probabilistik dan lebih pada cara kita mengubah menjadi klasifikasi . Jadi mengoptimalkan evaluasi klasifikasi mungkin mengejar herring merah jika kita benar-benar tertarik untuk mengevaluasi .qˆqˆyˆ=yˆ(qˆ,θ)qˆ
Sekarang, apa yang tidak tepat tentang asumsi-aturan penilaian-di bawah-tambahan-ini? Tidak ada, dalam kasus ini. , di bawah implisit , akan memaksimalkan akurasi dan meminimalkan kerugian kesalahan klasifikasi atas semua kemungkinan . Jadi dalam hal ini, asumsi penilaian-aturan-di bawah-tambahan-kita adalah tepat.qˆ=ηθ=0.5qˆ∈(0,1)
yˆqˆ
qˆ≥θθ=0.5qˆ=0.99qˆ≥θqˆη
θ=0.2y=1y=0qˆqˆ=0.25qˆ≥θ
Oleh karena itu, kehilangan akurasi atau kesalahan klasifikasi dapat menyesatkan.
Selain itu, akurasi dan kerugian kesalahan klasifikasi yang tidak tepat di bawah asumsi tambahan dalam situasi yang lebih kompleks di mana hasil tidak iid. Frank Harrell, dalam postingan blognya Kerusakan yang Disebabkan oleh Akurasi Klasifikasi dan Aturan Penilaian Akurasi Tidak Tepat yang Tidak Terputus lainnya mengutip contoh dari salah satu bukunya di mana menggunakan akurasi atau kehilangan kesalahan klasifikasi akan menyebabkan model yang salah ditentukan, karena tidak dioptimalkan oleh prediksi kondisional yang tepat kemungkinan.
Masalah lain dengan kehilangan akurasi dan kesalahan klasifikasi adalah bahwa mereka terputus sebagai fungsi dari ambang . Frank Harrell juga membahas hal ini.θ
Informasi lebih lanjut dapat ditemukan di Mengapa akurasi bukan ukuran terbaik untuk menilai model klasifikasi? .
Garis bawah
Jangan gunakan akurasi. Atau kesalahan klasifikasi kehilangan.
Nitpick: "ketat" vs "ketat"
Haruskah kita berbicara tentang aturan penilaian yang tepat "ketat", atau tentang "aturan penilaian yang tepat" yang ketat? "Strict" memodifikasi "proper", bukan "scoring rule". (Ada "aturan penilaian yang tepat" dan "aturan penilaian yang benar-benar tepat", tetapi tidak ada "aturan penilaian yang ketat".) Karena itu, "ketat" harus menjadi kata keterangan, bukan kata sifat, dan "ketat" harus digunakan. Seperti yang lebih umum dalam literatur, misalnya, makalah oleh Tilmann Gneiting.