Apakah akurasi aturan penilaian yang tidak tepat dalam pengaturan klasifikasi biner?

13

Saya baru-baru ini belajar tentang aturan penilaian yang tepat untuk pengklasifikasi probabilistik. Beberapa utas di situs web ini telah menekankan bahwa akurasi adalah aturan penilaian yang tidak tepat dan tidak boleh digunakan untuk mengevaluasi kualitas prediksi yang dihasilkan oleh model probabilistik seperti regresi logistik.

Namun, beberapa makalah akademis yang saya baca telah memberikan kerugian kesalahan klasifikasi sebagai contoh aturan penilaian yang tepat (tidak ketat) dalam pengaturan klasifikasi biner. Penjelasan paling jelas yang dapat saya temukan adalah di makalah ini , di bagian bawah halaman 7. Setahu saya, meminimalkan kehilangan kesalahan klasifikasi sama dengan memaksimalkan akurasi, dan persamaan dalam makalah masuk akal secara intuitif.

Sebagai contoh: menggunakan notasi kertas, jika probabilitas kondisional yang sebenarnya (diberikan beberapa fitur vektor x ) dari kelas yang diminati adalah η = 0,7, setiap perkiraan q > 0,5 akan memiliki kerugian yang diharapkan R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3, dan setiap q 0,5 akan memiliki kerugian yang diharapkan dari 0,7. Fungsi kerugian karenanya akan diminimalkan pada q = η = 0,7 dan akibatnya sesuai; generalisasi ke seluruh jajaran probabilitas dan prakiraan kondisional yang sebenarnya tampaknya cukup mudah dari sana.

Dengan asumsi perhitungan dan pernyataan di atas adalah benar, kelemahan dari minimum non-unik dan semua prediksi di atas 0,5 berbagi kerugian minimum yang diharapkan sama jelas. Saya masih melihat tidak ada alasan untuk menggunakan akurasi daripada alternatif tradisional seperti skor log, skor Brier, dll. Namun, apakah benar untuk mengatakan bahwa akurasi adalah aturan penilaian yang tepat ketika mengevaluasi model probabilistik dalam pengaturan biner, atau saya membuat kesalahan - baik dalam pemahaman saya tentang kehilangan kesalahan klasifikasi, atau menyamakannya dengan akurasi?

Zyzzva
sumber

Jawaban:

15

TL; DR

Akurasi adalah aturan penilaian yang tidak tepat. Jangan gunakan itu.

Versi yang sedikit lebih panjang

Sebenarnya, akurasi bahkan bukan aturan penilaian. Jadi, bertanya apakah itu (benar-benar) layak adalah kesalahan kategori. Yang paling bisa kita katakan adalah bahwa di bawah asumsi tambahan , akurasi konsisten dengan aturan penilaian yang tidak tepat, terputus-putus dan menyesatkan. (Jangan gunakan itu.)

Kebingunganmu

Kebingungan Anda berasal dari fakta bahwa kesalahan klasifikasi kehilangan sesuai dengan kertas yang Anda sebutkan juga bukan aturan penilaian.

Rinciannya: aturan penilaian vs. evaluasi klasifikasi

Mari kita perbaiki terminologi. Kami tertarik pada hasil biner , dan kami memiliki prediksi probabilistik . Kita tahu bahwa , tetapi model kami mungkin atau mungkin tidak tahu itu.q = P ( Y = 1 ) ( 0 , 1 ) P ( Y = 1 ) = η > 0,5 qy{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

Sebuah aturan skoring adalah pemetaan yang membutuhkan prediksi probabilistik dan hasil untuk kerugian, yq^y

s:(q^,y)s(q^,y).

q = η s q = ηs adalah tepat jika dioptimalkan dengan harapan oleh . ( "Optimized" biasanya berarti "diminimalkan", tapi tanda-tanda beberapa penulis sandal dan mencoba untuk memaksimalkan aturan mencetak gol.) adalah ketat tepat jika dioptimalkan dengan harapan hanya oleh .q^=ηsq^=η

Kami biasanya akan mengevaluasi pada banyak prediksi dan hasil yang sesuai dan rata-rata untuk memperkirakan ekspektasi ini.sq^iyi

Sekarang, apa itu akurasi ? Akurasi tidak mengambil prediksi probabilistik sebagai argumen. Dibutuhkan klasifikasiy^{0,1} dan hasil:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Oleh karena itu, akurasi bukan aturan penilaian . Ini adalah evaluasi klasifikasi. (Ini adalah istilah yang baru saya temukan; jangan pergi mencarinya di literatur.)

Sekarang, tentu saja kita dapat mengambil prediksi probabilistik seperti dan mengubahnya menjadi klasifikasi . Tetapi untuk melakukannya, kita perlu asumsi tambahan yang disinggung di atas. Misalnya, sangat umum untuk menggunakan ambang dan mengklasifikasikan:q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

Nilai ambang yang sangat umum adalah . Perhatikan bahwa jika kita menggunakan ambang ini dan kemudian mengevaluasi keakuratan atas banyak prediksi (seperti di atas) dan hasil yang sesuai , maka kita tiba tepat pada hilangnya kesalahan klasifikasi seperti yang Buja et al. Dengan demikian, kerugian kesalahan klasifikasi juga bukan aturan penilaian, tetapi evaluasi klasifikasi.θ=0.5q^iyi

Jika kita menggunakan algoritme klasifikasi seperti di atas, kita dapat mengubah evaluasi klasifikasi menjadi aturan penilaian. Intinya adalah bahwa kita membutuhkan asumsi tambahan dari classifier. Dan bahwa kehilangan akurasi atau kesalahan klasifikasi atau penilaian klasifikasi apa pun yang kita pilih dapat bergantung sedikit pada prediksi probabilistik dan lebih pada cara kita mengubah menjadi klasifikasi . Jadi mengoptimalkan evaluasi klasifikasi mungkin mengejar herring merah jika kita benar-benar tertarik untuk mengevaluasi .q^q^y^=y^(q^,θ)q^

Sekarang, apa yang tidak tepat tentang asumsi-aturan penilaian-di bawah-tambahan-ini? Tidak ada, dalam kasus ini. , di bawah implisit , akan memaksimalkan akurasi dan meminimalkan kerugian kesalahan klasifikasi atas semua kemungkinan . Jadi dalam hal ini, asumsi penilaian-aturan-di bawah-tambahan-kita adalah tepat.q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

Oleh karena itu, kehilangan akurasi atau kesalahan klasifikasi dapat menyesatkan.

Selain itu, akurasi dan kerugian kesalahan klasifikasi yang tidak tepat di bawah asumsi tambahan dalam situasi yang lebih kompleks di mana hasil tidak iid. Frank Harrell, dalam postingan blognya Kerusakan yang Disebabkan oleh Akurasi Klasifikasi dan Aturan Penilaian Akurasi Tidak Tepat yang Tidak Terputus lainnya mengutip contoh dari salah satu bukunya di mana menggunakan akurasi atau kehilangan kesalahan klasifikasi akan menyebabkan model yang salah ditentukan, karena tidak dioptimalkan oleh prediksi kondisional yang tepat kemungkinan.

Masalah lain dengan kehilangan akurasi dan kesalahan klasifikasi adalah bahwa mereka terputus sebagai fungsi dari ambang . Frank Harrell juga membahas hal ini.θ

Informasi lebih lanjut dapat ditemukan di Mengapa akurasi bukan ukuran terbaik untuk menilai model klasifikasi? .

Garis bawah

Jangan gunakan akurasi. Atau kesalahan klasifikasi kehilangan.

Nitpick: "ketat" vs "ketat"

Haruskah kita berbicara tentang aturan penilaian yang tepat "ketat", atau tentang "aturan penilaian yang tepat" yang ketat? "Strict" memodifikasi "proper", bukan "scoring rule". (Ada "aturan penilaian yang tepat" dan "aturan penilaian yang benar-benar tepat", tetapi tidak ada "aturan penilaian yang ketat".) Karena itu, "ketat" harus menjadi kata keterangan, bukan kata sifat, dan "ketat" harus digunakan. Seperti yang lebih umum dalam literatur, misalnya, makalah oleh Tilmann Gneiting.

Stephan Kolassa
sumber
Ada banyak aspek dari posting Anda yang tidak saya ikuti (atau merasa tidak relevan dengan pertanyaan yang saya ajukan), tetapi mari kita mulai dengan "kehilangan kesalahan klasifikasi sesuai dengan kertas yang Anda sebutkan bukanlah aturan penilaian." Rumusnya diberikan dengan sangat jelas di kertas: L1 (1-q) = 1 [q <= 0,5] (maaf format yang buruk). Ini, untuk semua tujuan praktis, fungsi langkah yang secara langsung memetakan setiap prediksi probabilistik dan hasil yang terkait dengan hilangnya 0 atau 1. Selanjutnya, 0,5 hanyalah parameter yang mengontrol di mana langkah itu terjadi; Saya gagal melihat "asumsi" yang terlibat. Bagaimana ini bukan aturan penilaian?
Zyzzva
1
Ambang 0,5 adalah asumsi. Prediksi probabilistik dipetakan ke klasifikasi dengan menggunakan ambang, dan kerugian kesalahan klasifikasi maka hanya fungsi dari klasifikasi ini. Anda dapat menghitung kerugian kesalahan klasifikasi sama untuk klasifikasi lainnya, misalnya, yang menggulung mati dan memberikan contoh ke kelas A jika kita menggulung 1 atau 2. Saya melakukan yang terbaik untuk menjelaskan topik yang rumit dan sering disalahpahami (dan Saya merasa bahwa semua yang saya tulis adalah relevan); Saya minta maaf jika saya tidak berhasil. Saya akan senang mendiskusikan poin yang tersisa. q
Stephan Kolassa
1
Adapun komentar relevansi, saya minta maaf jika itu datang dengan cara yang salah. Saya mencoba untuk memfokuskan ruang lingkup pertanyaan secara khusus tentang layak vs tidak tepat, tidak terputus / menyesatkan / dll. Saya sangat mengenal tautan yang Anda berikan dan tidak memiliki masalah dengan komentar Anda tentang biaya kesalahan klasifikasi atau laba. Saya hanya mencari penjelasan yang lebih ketat dari pernyataan "akurasi tidak tepat", terutama mengingat bahwa makalah ini menyarankan sebaliknya untuk kasus penggunaan umum hasil biner. Saya menghargai Anda meluangkan waktu untuk mendiskusikan hal ini dengan saya dan membagikan pemikiran terperinci Anda.
Zyzzva
1
Setelah refleksi lebih lanjut, saya pikir saya memiliki pemahaman yang lebih jelas tentang poin yang Anda buat. Jika kita menganggap fungsi langkah yang sama dengan langkah di 0,6 (sesuai dengan klasifikasi pada ambang 0,6), maka aturan penilaian tidak tepat, karena kerugian yang diharapkan tidak lagi dapat diminimalkan dengan prediksi q = n untuk n dalam rentang [ 0,5, 0,6]. Secara umum, ini akan menjadi tidak tepat di setiap ambang selain 0,5, dan seringkali dalam praktiknya kami ingin menggunakan ambang lainnya karena biaya asimetris kesalahan klasifikasi, seperti yang Anda tunjukkan.
Zyzzva
1
Saya setuju bahwa akurasi jelas merupakan metrik yang buruk untuk mengevaluasi probabilitas, bahkan ketika ambang batas dari 0,5 dibenarkan. Saya memang mengatakan sebanyak mungkin di akhir posting asli yang saya buat, tetapi ini membantu menjernihkan detail spesifik yang saya alami masalah - yaitu, merekonsiliasi sesuatu yang saya salah pahami sebagai menunjukkan bahwa akurasi tepat untuk hasil biner (ketika kenyataannya hanya berlaku untuk kasus yang sangat spesifik dari ambang 0,5) dengan pernyataan yang tampaknya hitam-putih "akurasi tidak tepat" bahwa saya telah melihat banyak. Terima kasih atas bantuan dan kesabaran Anda.
Zyzzva