Saat ini saya menggunakan beberapa pengklasifikasi yang berbeda pada berbagai entitas yang diekstraksi dari teks, dan menggunakan presisi / mengingat sebagai ringkasan seberapa baik kinerja masing-masing pengklasifikasi yang terpisah di seluruh dataset yang diberikan.
Saya bertanya-tanya apakah ada cara yang berarti untuk membandingkan kinerja pengklasifikasi ini dengan cara yang sama, tetapi yang juga memperhitungkan jumlah total masing-masing entitas dalam data uji yang diklasifikasikan?
Saat ini, saya menggunakan presisi / mengingat sebagai ukuran kinerja, jadi mungkin ada sesuatu seperti:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Namun, set data yang saya gunakan mungkin berisi 100k orang, 5k perusahaan, 500 keju, dan 1 telur.
Jadi adakah statistik ringkasan yang dapat saya tambahkan ke tabel di atas yang juga memperhitungkan jumlah total setiap item? Atau adakah cara untuk mengukur fakta bahwa mis. 100% prec / rec pada classifier telur mungkin tidak bermakna dengan hanya 1 item data?
Katakanlah kita memiliki ratusan pengklasifikasi seperti itu, saya kira saya sedang mencari cara yang baik untuk menjawab pertanyaan seperti "Pengklasifikasi manakah yang berkinerja buruk? Pengklasifikasi mana yang tidak memiliki data uji yang cukup untuk mengetahui apakah mereka berkinerja buruk?".
sumber
Jawaban:
Anda perlu melihat interval kepercayaan dari statistik. Ini membantu mengukur seberapa banyak ketidakpastian dalam statistik, yang sebagian besar merupakan fungsi dari ukuran sampel.
sumber
Menurut pendapat saya, sulit untuk membandingkan kinerja ketika ada perbedaan ukuran yang besar. Pada tautan ini, (silakan periksa di sini di Wikipedia http://en.wikipedia.org/wiki/Effect_size ), Anda dapat melihat berbagai strategi.
Yang saya sarankan adalah yang terkait dengan varians. Misalnya, pertimbangkan kinerja classifier (100%) dan classifier orang (65%). Kesalahan minimum yang Anda lakukan dengan classifier sebelumnya adalah 100%. Namun, kesalahan minimum yang dapat Anda lakukan dengan classifier yang terakhir adalah 10e-5.
Jadi salah satu cara untuk membandingkan classifier adalah dengan memikirkan Aturan Tiga ini ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) di mana Anda dapat membandingkan kinerja dan variabilitasnya.
Kemungkinan lain adalah ukuran-F yang merupakan kombinasi dari Precision dan Recall dan itu entah bagaimana independen terhadap ukuran efek.
sumber
Jumlah data di kelas kadang-kadang disebut sebagai
support
classifier. Ini memberi tahu seberapa besar Anda bisa memercayai hasil Anda, seperti nilai-p akan memungkinkan Anda untuk mempercayai atau tidak mempercayai beberapa tes.Salah satu pendekatan yang dapat Anda gunakan adalah untuk menghitung beberapa ukuran kinerja classifier, tidak hanya presisi dan daya ingat, tetapi juga tingkat positif benar, tingkat positif palsu, spesifisitas, sensitivitas, kemungkinan positif, kemungkinan negatif, dll. Dan melihat apakah mereka konsisten satu sama lain . Jika salah satu ukuran maxes out (100%) dan yang lainnya tidak, seringkali, dalam pengalaman saya, menunjukkan ada yang tidak beres (mis. Dukungan buruk, klasifikasi sepele, klasifikasi bias, dll.). Lihat ini untuk daftar ukuran kinerja pengklasifikasi.
sumber