Ada banyak situasi di mana Anda dapat melatih beberapa pengklasifikasi yang berbeda, atau menggunakan beberapa metode ekstraksi fitur yang berbeda. Dalam literatur penulis sering memberikan kesalahan klasifikasi rata-rata pada set split acak data (yaitu setelah validasi silang bersarang ganda), dan kadang-kadang memberikan varians pada kesalahan atas split juga. Namun ini saja tidak cukup untuk mengatakan bahwa satu classifier secara signifikan lebih baik daripada yang lain. Saya telah melihat banyak pendekatan berbeda untuk hal ini - menggunakan uji Chi-squared, uji-t, ANOVA dengan pengujian pasca-hoc dll.
Metode apa yang harus digunakan untuk menentukan signifikansi statistik? Yang mendasari pertanyaan itu adalah: Asumsi apa yang harus kita buat tentang distribusi skor klasifikasi?
Jawaban:
Selain jawaban luar biasa @ jb., izinkan saya menambahkan bahwa Anda dapat menggunakan tes McNemar pada set tes yang sama untuk menentukan apakah satu classifier secara signifikan lebih baik daripada yang lain. Ini hanya akan bekerja untuk masalah klasifikasi (apa yang karya asli McNemar sebut sebagai "sifat dikotomis") yang berarti bahwa pengklasifikasi baik benar atau salah, tidak ada ruang di tengah.
sumber
Karena distribusi kesalahan klasifikasi adalah distribusi biner (baik ada kesalahan klasifikasi atau tidak ada) --- Saya akan mengatakan bahwa menggunakan Chi-squared tidak masuk akal.
Juga hanya membandingkan efisiensi pengklasifikasi yang bekerja pada dataset yang sama masuk akal --- 'Teorema makan siang gratis' menyatakan bahwa semua model memiliki efisiensi rata-rata yang sama atas semua dataset, sehingga model mana yang akan tampak lebih baik akan bergantung hanya pada dataset apa yang memilih untuk melatih mereka http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .
Jika Anda membandingkan efisiensi model A dan B lebih dari dataset D saya pikir bahwa rata-rata + efisiensi rata-rata sudah cukup untuk membuat pilihan.
Apalagi jika seseorang memiliki banyak model yang memiliki efisiensi resonable (dan linier independen satu sama lain) Saya lebih suka membangun model ensemble daripada hanya memilih model terbaik.
sumber
Saya merekomendasikan makalah oleh Tom Dietterich berjudul "Perkiraan Tes Statistik untuk Membandingkan Algoritma Pembelajaran Klasifikasi yang Dibimbing". Berikut profil makalah tentang CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Dari abstrak: "Makalah ini mengulas lima tes statistik perkiraan untuk menentukan apakah satu algoritma pembelajaran melakukan yang lain pada tugas belajar tertentu. Tes ini dibandingkan secara eksperimental untuk menentukan probabilitas mereka secara tidak benar mendeteksi perbedaan ketika tidak ada perbedaan (kesalahan tipe I). ) ... ... tes McNemar, terbukti memiliki kesalahan Tipe I rendah ... "
sumber
IMHO seharusnya tidak ada perbedaan antara distribusi skor dengan distribusi jenis data lainnya. jadi pada dasarnya yang harus Anda periksa adalah apakah data Anda didistribusikan secara normal atau tidak lihat di sini . Selain itu, ada buku-buku hebat yang membahas pertanyaan ini dengan seksama lihat di sini (yaitu singkatnya: mereka semua menguji apakah hasil dari dua classifier berbeda secara signifikan .. dan jika mereka melakukannya, mereka dapat digabungkan menjadi satu model ensemble)
sumber
Tidak ada tes tunggal yang sesuai untuk semua situasi; Saya dapat merekomendasikan buku "Evaluating Learning Algorithms" oleh Nathalie Japkowicz dan Mohak Shah, Cambridge University Press, 2011. Fakta bahwa sebuah buku hampir 400 halaman dapat ditulis pada topik ini menunjukkan bahwa itu bukan masalah langsung. Saya sering menemukan bahwa tidak ada tes yang benar-benar sesuai dengan kebutuhan studi saya, jadi penting untuk memiliki pemahaman yang baik tentang kelebihan dan kekurangan metode apa pun yang akhirnya digunakan.
Masalah umum adalah bahwa untuk kumpulan data besar perbedaan yang signifikan secara statistik dapat diperoleh dengan ukuran efek yang tidak signifikan secara praktis.
sumber