Apa cara yang benar untuk menguji signifikansi hasil klasifikasi

21

Ada banyak situasi di mana Anda dapat melatih beberapa pengklasifikasi yang berbeda, atau menggunakan beberapa metode ekstraksi fitur yang berbeda. Dalam literatur penulis sering memberikan kesalahan klasifikasi rata-rata pada set split acak data (yaitu setelah validasi silang bersarang ganda), dan kadang-kadang memberikan varians pada kesalahan atas split juga. Namun ini saja tidak cukup untuk mengatakan bahwa satu classifier secara signifikan lebih baik daripada yang lain. Saya telah melihat banyak pendekatan berbeda untuk hal ini - menggunakan uji Chi-squared, uji-t, ANOVA dengan pengujian pasca-hoc dll.

Metode apa yang harus digunakan untuk menentukan signifikansi statistik? Yang mendasari pertanyaan itu adalah: Asumsi apa yang harus kita buat tentang distribusi skor klasifikasi?

tdc
sumber
2
Bisakah Anda memposting makalah contoh dengan: "Saya telah melihat banyak pendekatan berbeda untuk hal ini - menggunakan uji Chi-squared, uji-t, ANOVA dengan pengujian pasca-hoc, dll."? Saya sangat tertarik dengan itu.
jb.

Jawaban:

9

Selain jawaban luar biasa @ jb., izinkan saya menambahkan bahwa Anda dapat menggunakan tes McNemar pada set tes yang sama untuk menentukan apakah satu classifier secara signifikan lebih baik daripada yang lain. Ini hanya akan bekerja untuk masalah klasifikasi (apa yang karya asli McNemar sebut sebagai "sifat dikotomis") yang berarti bahwa pengklasifikasi baik benar atau salah, tidak ada ruang di tengah.

carlosdc
sumber
Bagaimana dengan dalam skenario ketika classifier dapat lulus? Seperti di dalamnya katanya tidak tahu. Masih bisakah Anda menggunakan tes McNemar?
S0rin
5

Karena distribusi kesalahan klasifikasi adalah distribusi biner (baik ada kesalahan klasifikasi atau tidak ada) --- Saya akan mengatakan bahwa menggunakan Chi-squared tidak masuk akal.

Juga hanya membandingkan efisiensi pengklasifikasi yang bekerja pada dataset yang sama masuk akal --- 'Teorema makan siang gratis' menyatakan bahwa semua model memiliki efisiensi rata-rata yang sama atas semua dataset, sehingga model mana yang akan tampak lebih baik akan bergantung hanya pada dataset apa yang memilih untuk melatih mereka http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Jika Anda membandingkan efisiensi model A dan B lebih dari dataset D saya pikir bahwa rata-rata + efisiensi rata-rata sudah cukup untuk membuat pilihan.

Apalagi jika seseorang memiliki banyak model yang memiliki efisiensi resonable (dan linier independen satu sama lain) Saya lebih suka membangun model ensemble daripada hanya memilih model terbaik.

jb.
sumber
Tetapi untuk satu classifier Anda berakhir dengan satu set skor (misalnya MSE lebih dari 100 split), yang bisa berada dalam kisaran [0,1] misalnya. Saya pikir itu akan menjadi terlalu mahal untuk mengambil hasil dari setiap proses dan menganalisisnya.
tdc
Iya nih. Tetapi dalam hal ini mean + stddev sudah cukup untuk menguji apakah yang satu secara signifikan lebih baik daripada yang lain, sama seperti pengukuran lainnya.
jb.
2
Saya tidak yakin. Mean & stddev mengasumsikan Gaussianity sebagai permulaan, dan kedua ini tidak memperhitungkan berapa banyak perbandingan yang dilakukan (mis. Koreksi Bonferroni mungkin diperlukan)
tdc
1
Ini sama dalam teori pengukuran dasar. Mari kita asumsikan kita memiliki mikrometer dan kami ingin memeriksa apakah dua batang memiliki diameter yang sama, kami mengambil 100 pengukuran kedua batang dan memeriksa apakah rata-rata + stddev tumpang tindih. Dalam kedua kasus (pengukuran batang dan model metik) kami hanya mengasumsikan distribusi hasil gaussian, hanya argumen yang masuk akal adalah teorema Limit pusat .
jb.
3

Saya merekomendasikan makalah oleh Tom Dietterich berjudul "Perkiraan Tes Statistik untuk Membandingkan Algoritma Pembelajaran Klasifikasi yang Dibimbing". Berikut profil makalah tentang CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Dari abstrak: "Makalah ini mengulas lima tes statistik perkiraan untuk menentukan apakah satu algoritma pembelajaran melakukan yang lain pada tugas belajar tertentu. Tes ini dibandingkan secara eksperimental untuk menentukan probabilitas mereka secara tidak benar mendeteksi perbedaan ketika tidak ada perbedaan (kesalahan tipe I). ) ... ... tes McNemar, terbukti memiliki kesalahan Tipe I rendah ... "

Eric Ringger
sumber
2

IMHO seharusnya tidak ada perbedaan antara distribusi skor dengan distribusi jenis data lainnya. jadi pada dasarnya yang harus Anda periksa adalah apakah data Anda didistribusikan secara normal atau tidak lihat di sini . Selain itu, ada buku-buku hebat yang membahas pertanyaan ini dengan seksama lihat di sini (yaitu singkatnya: mereka semua menguji apakah hasil dari dua classifier berbeda secara signifikan .. dan jika mereka melakukannya, mereka dapat digabungkan menjadi satu model ensemble)

Dov
sumber
Saya pikir mereka kemungkinan besar tidak akan didistribusikan secara normal. Dalam kasus biasa, skor akan positif dan condong ke salah satu ujung rentang (1 atau 0 tergantung jika Anda menggunakan akurasi atau kesalahan sebagai ukuran).
tdc
@tdc: distribusi kasus ini fungsi (jumlah kesalahan klasifikasi) -> (jumlah model dengan jumlah kesalahan klasifikasi ini) akan sering IMHO disrtibution poisson serupa.
jb.
@Dov: Menguji model mana yang secara signifikan lebih baik (itu adalah pertanyaan OP) dan testin jika mereka berbeda adalah hal yang sangat berbeda.
jb.
@ jb. Terima kasih. tetapi saya katakan berbeda secara signifikan tidak lebih baik ...
Dov
@Dov, tautan pertama Anda rusak - Saya tidak tahu ke mana harus menunjuk.
Tamzin Blake
2

Tidak ada tes tunggal yang sesuai untuk semua situasi; Saya dapat merekomendasikan buku "Evaluating Learning Algorithms" oleh Nathalie Japkowicz dan Mohak Shah, Cambridge University Press, 2011. Fakta bahwa sebuah buku hampir 400 halaman dapat ditulis pada topik ini menunjukkan bahwa itu bukan masalah langsung. Saya sering menemukan bahwa tidak ada tes yang benar-benar sesuai dengan kebutuhan studi saya, jadi penting untuk memiliki pemahaman yang baik tentang kelebihan dan kekurangan metode apa pun yang akhirnya digunakan.

Masalah umum adalah bahwa untuk kumpulan data besar perbedaan yang signifikan secara statistik dapat diperoleh dengan ukuran efek yang tidak signifikan secara praktis.

Dikran Marsupial
sumber