Apakah ada metode standar untuk menentukan titik operasi "optimal" pada kurva recall presisi ? (Yaitu, menentukan titik pada kurva yang menawarkan trade-off yang baik antara presisi dan recall)
Terima kasih
sumber
Apakah ada metode standar untuk menentukan titik operasi "optimal" pada kurva recall presisi ? (Yaitu, menentukan titik pada kurva yang menawarkan trade-off yang baik antara presisi dan recall)
Terima kasih
Definisi "optimal" tentu saja akan tergantung pada tujuan spesifik Anda, tetapi berikut adalah beberapa metode yang relatif "standar":
Titik Equal error rate (EER): titik di mana presisi sama dengan recall. Ini terasa bagi sebagian orang seperti titik operasi "alami".
Versi yang disempurnakan dan lebih berprinsip dari hal di atas adalah untuk menentukan biaya dari berbagai jenis kesalahan dan mengoptimalkan biaya itu. Say misclassifying item (kesalahan dalam presisi) dua kali lebih mahal daripada melewatkan item sepenuhnya (kesalahan dalam mengingat). Maka titik operasi terbaik adalah di mana (1 - recall) = 2 * (1 - presisi).
Dalam beberapa masalah orang memiliki tingkat ketepatan atau daya ingat minimal yang dapat diterima secara alami. Katakan Anda tahu bahwa jika lebih dari 20% data yang diambil salah, pengguna akan berhenti menggunakan aplikasi Anda. Maka wajar untuk mengatur presisi menjadi 80% (atau sedikit lebih rendah) dan menerima penarikan apa pun yang Anda miliki pada saat itu.
Menindaklanjuti poin-poin poin kedua dan ketiga SheldonCooper: Pilihan ideal adalah meminta orang lain membuat pilihan, baik dalam bentuk ambang (poin 3) atau tradeoff manfaat biaya (poin 2). Dan mungkin cara terbaik untuk menawarkan kepada mereka pilihan adalah dengan kurva ROC .
Saya tidak yakin bagaimana "standar" ini, tetapi salah satu cara adalah memilih titik yang paling dekat dengan (1, 1) - yaitu 100% recall dan presisi 100%. Itu akan menjadi keseimbangan optimal antara dua langkah. Ini dengan asumsi Anda tidak menghargai ketepatan mengingat atau sebaliknya.