Apa artinya bahwa AUC adalah aturan pemberian skor yang semestinya?

16

Aturan penilaian yang tepat adalah aturan yang dimaksimalkan oleh model 'benar' dan itu tidak memungkinkan 'lindung nilai' atau bermain game sistem (sengaja melaporkan hasil yang berbeda seperti keyakinan sejati model untuk meningkatkan skor). Skor penghalang adalah tepat, akurasi (proporsi diklasifikasikan dengan benar) tidak tepat dan sering tidak dianjurkan. Terkadang saya melihat bahwa AUC disebut aturan penilaian semi-layak yang membuatnya tidak sepenuhnya palsu sebagai akurasi, tetapi kurang sensitif daripada aturan yang tepat (misalnya di sini /stats//a/90705/53084 ).

Apa arti dari aturan penilaian semi-layak? Apakah ini didefinisikan di suatu tempat?

rep_ho
sumber
Sumber atau referensi tempat Anda melihat istilah itu dapat membantu orang menggali?
Sixiang.Hu
Saya percaya ini ada hubungannya dengan fakta bahwa AUC kira-kira sama dengan indeks konkordansi, yang merupakan skor yang tepat, dalam hal prediksi probabilitas. Tapi ini terdengar seperti pertanyaan untuk dijawab Frank Harrell: stats.stackexchange.com/users/4253/frank-harrell
Brash Equilibrium
2
Sejauh yang saya tahu, AUC ADALAH indeks kesesuaian, yang tidak tepat.
rep_ho

Jawaban:

14

Mari kita mulai dengan sebuah contoh. Say Alice adalah pelatih lintasan dan ingin memilih seorang atlet untuk mewakili tim dalam acara olahraga yang akan datang, sprint 200m. Secara alami dia ingin memilih pelari tercepat.

  • Sebuah aturan skoring ketat yang tepat akan mencalonkan pelari tercepat dari tim selama jarak 200m. Ini memaksimalkan apa yang diinginkan pelatih Alice dalam situasi ini. Atlet dengan kinerja yang diharapkan tercepat akan dipilih - ini adalah tes diskriminatif yang adil.
  • Sebuah aturan skoring yang tepat akan memilih seorang atlet yang mampu menjalankan 200m tercepat tapi kali ini dibulatkan ke setengah detik terdekat. Atlet terbaik dan juga berpotensi beberapa atlet lain juga akan dapat lulus tes ini. Semua atlet yang dipilih dengan cara ini cukup kompetitif tetapi jelas ini bukan tes kecepatan diskriminatif yang sempurna.
  • Sebuah aturan skoring semi-benar akan memilih seorang atlet yang mampu menjalankan 200m di bawah ambang batas waktu yang kompetitif, misalnya 22 detik. Seperti sebelumnya, atlet terbaik serta beberapa atlet lain juga akan dapat lulus tes ini. Demikian pula semua atlet yang dipilih dengan cara ini mungkin cukup kompetitif tetapi jelas bukan hanya ini bukan tes diskriminatif yang sempurna tetapi juga bisa sangat buruk (jika kita memilih waktu yang terlalu longgar atau terlalu ketat). Perhatikan bahwa tidak salah sama sekali.
  • Sebuah aturan skoring yang tidak tepat akan memilih atlet dengan kaki terkuat, misalnya yang dapat jongkok paling berat. Tentu saja, pelari cepat yang baik mungkin memiliki kaki yang sangat kuat tetapi tes ini berarti bahwa beberapa orang dari tim angkat berat akan unggul di sini. Jelas seorang atlet angkat berat dalam lomba 200m akan menjadi bencana besar!

Meskipun agak diremehkan, contoh di atas menunjukkan apa yang terjadi dengan penggunaan aturan penilaian. Alice memperkirakan waktu sprint yang diharapkan. Dalam konteks klasifikasi, kami memperkirakan probabilitas meminimalkan kesalahan klasifikasi probabilistik.

  • Sebuah aturan skoring ketat yang tepat , seperti skor Brier, jaminan bahwa skor terbaik hanya akan tercapai ketika kita sebagai dekat dengan probabilitas benar mungkin.
  • Sebuah aturan skoring yang tepat , seperti terus menerus skor probabilitas peringkat (CRPS), tidak jaminan bahwa skor terbaik hanya akan tercapai oleh classifier yang prediksi yang paling dekat dengan probabilitas benar. Calon pengklasifikasi lainnya mungkin mendapatkan skor CRPS yang cocok dengan klasifikasi optimal.
  • Sebuah aturan skoring semi-benar , seperti AUC-ROC, tidak hanya itu bukan jaminan bahwa performa terbaik akan dicapai oleh classifier yang prediksi yang paling dekat dengan probabilitas benar, tetapi juga (berpotensi) mungkin untuk memperbaiki nilai-nilai AUC-ROC dengan memindahkan probabilitas yang diprediksi jauh dari nilai-nilai aslinya. Namun demikian, dalam kondisi tertentu (mis. Distribusi kelas adalah apriori yang dikenal dalam kasus AUC-ROC) aturan tersebut dapat mendekati aturan penilaian yang tepat. Byrne (2016) " Catatan tentang penggunaan AUC empiris untuk mengevaluasi perkiraan probabilitas " menimbulkan beberapa poin menarik tentang AUC-ROC.
  • Sebuah aturan skoring yang tidak tepat , seperti Akurasi, penawaran sedikit atau tidak ada koneksi ke tugas awal kami memprediksi probabilitas sedekat mungkin dengan probabilitas benar.

Seperti yang kita lihat aturan pemberian skor yang semi-benar tidak sempurna tetapi tidak sekaligus merupakan bencana besar. Ini bisa sangat berguna selama prediksi sebenarnya! Cagdas Ozgenc memiliki contoh yang bagus di sini di mana bekerja dengan aturan yang tidak patut / semi-tepat lebih disukai daripada aturan yang benar-benar tepat. Secara umum, istilah aturan penilaian semi-layak tidak terlalu umum. Ini terkait dengan aturan yang tidak tepat yang dapat sangat membantu (mis. AUC-ROC atau MAE dalam klasifikasi probabilistik).

Akhirnya, perhatikan sesuatu yang penting. Karena sprint dikaitkan dengan kaki yang kuat, maka klasifikasi probabilistik yang benar dengan Akurasi. Tidak mungkin sprinter yang baik akan memiliki kaki yang lemah dan juga tidak mungkin bahwa classifier yang baik akan memiliki Akurasi yang buruk. Namun demikian, menyamakan Akurasi dengan kinerja classifier yang baik seperti menyamakan kekuatan kaki dengan kinerja sprint yang baik. Tidak sepenuhnya tidak berdasar tetapi sangat masuk akal untuk mengarah pada hasil yang tidak masuk akal.

usεr11852 kata Reinstate Monic
sumber