Bagaimana cara menilai signifikansi statistik dari keakuratan classifier?

8

Saya memiliki output akurasi classifier dalam persentase dan jumlah sampel input. Apakah ada tes yang dapat mengetahui seberapa signifikan hasilnya menurut informasi ini?

Terima kasih

Shan
sumber
Bisakah Anda memberi contoh?
Max Gordon
3
Bagi saya tidak jelas apa yang Anda miliki dan apa yang Anda minta. Ada tes apakah proporsi 0, tapi itu bukan tes bermakna untuk akurasi - akurasi 0 akan sempurna dengan cara - selalu salah!
Peter Flom

Jawaban:

10

Anda ingin mendefinisikan distribusi akurasi hanya menebak. Mungkin ini seperti X/n mana X binomial ( n , p ) untuk beberapa p yang diketahui p(katakanlah 50%).

Kemudian hitung peluang mengamati hasil yang Anda lakukan, jika model nol ini benar. Di R, Anda bisa menggunakan binom.testatau menghitungnya langsung dengan pbinom.

Biasanya Anda ingin membandingkan akurasi bukan dengan "menebak" tetapi dengan beberapa metode alternatif, dalam hal ini Anda dapat menggunakan tes McNemar ; dalam R mcnemar.test,.

Karl
sumber
6

Saya tidak melihat di mana pengujian terhadap keacakan lengkap sangat membantu. Penggolong yang hanya bisa mengalahkan tebakan acak murni tidak terlalu berguna. Masalah yang lebih besar adalah penggunaan proporsi yang diklasifikasikan dengan benar sebagai skor akurasi Anda. Ini adalah aturan penilaian tidak terputus yang dapat dengan mudah dimanipulasi karena arbitrer dan tidak sensitif. Salah satu (dari banyak) cara untuk melihat kekurangannya adalah dengan menghitung proporsi yang diklasifikasikan dengan benar jika Anda memiliki model dengan hanya intersep. Ini akan tinggi jika hasilnya tidak mendekati 0,5 dalam prevalensi.

Setelah Anda memilih aturan yang lebih tepat, akan berharga untuk menghitung interval kepercayaan untuk indeks. Signifikansi statistik tidak terlalu bernilai.

Frank Harrell
sumber
Tentang proporsi yang diklasifikasikan dengan benar, apakah maksud Anda akurasi klasifikasi standar? terima kasih
Simone
1
Iya; ukuran yang sangat bermasalah.
Frank Harrell
Ya, itu adalah tindakan yang sangat bermasalah. Saya setuju dengan kamu.
Simone
2
Pengklasifikasi yang hanya mengalahkan tebakan acak bisa sangat berguna dalam beberapa situasi. Dengan demikian, memiliki beberapa tes yang mengukur kepercayaan dalam suatu pengklasifikasi menjadi lebih baik daripada peluang juga berguna.
ely
3

Yang pasti Anda dapat komputer interval kepercayaan . Jika adalah akurasi Anda diestimasi pada set uji elemen , itu menyatakan bahwa Jadi Jadi Anda dapat mengatakan bahwa: Misalnya Anda dapat menghitung interval Wilson . accN

accpp(1p)/NN(0,1)
P(accpp(1p)/N[zα/2,+zα/2])1α
P(p[l,u])1α
l=2 N acc+zα/22zα/2zα/22+4 N acc4 N acc22(N+zα/22)
kamu=2 N mnrt+zα/22+zα/2zα/22+4 N mnrt-4 N mnrt22(N+zα/22)

Saya pikir Anda dapat menghitung berapa banyak berbeda kinerja Anda dari satu acak menghitung keuntungan . Keakuratan classifier acak adalah: mana adalah frekuensi empiris dari kelas yang perkirakan pada set tes, dan adalah angka dari berbagai kelas. Rata-rata classifier acak, yang mengklasifikasikan menebak acak kelas mengandalkan probabilitas prior set tes, mengklasifikasikan contoh kelas dengan benar. Di mana adalah jumlah rekaman kelas

mnrtr=saya=1chalsaya2
halsayasayacsayahalsayansaya=nsayaNnsayasayansayasayadi set tes. Jadi Anda mungkin melihat pertanyaan saya.
mnrtr=hal1n1++halcncn1++nc=hal1n1N++halcncN=sayachalsaya2

Keuntungannya adalah:

mendapatkan=mnrtmnrtr

Saya benar-benar berpikir tes statistik dapat dibuat sketsa. Pembilangnya dapat dilihat sebagai variabel acak normal, , tetapi Anda harus mencari tahu variabel variabel apa yang merupakan penyebut variabel bisa.N(mnrt,hal(1-hal)/N)mnrtr

Simone
sumber
3
Sekali lagi saya tidak yakin bahwa uji statistik terhadap benar-benar tidak ada nilai prediksi bernilai.
Frank Harrell
2
Pengklasifikasi yang hanya mengalahkan tebakan acak bisa sangat berguna dalam beberapa situasi. Dengan demikian, memiliki beberapa tes yang mengukur kepercayaan dalam suatu pengklasifikasi menjadi lebih baik daripada peluang juga berguna.
ely
1
Dalam sebagian besar situasi kita ingin tahu seberapa baik prediksi mendiskriminasi, bukan hanya apakah prediksi itu mendiskriminasi lebih baik daripada kebetulan acak.
Frank Harrell
Tidak jika Anda meningkatkan sekelompok pengklasifikasi lemah, yang merupakan kegiatan yang sangat umum. Anda mungkin peduli tentang diskriminasi begitu Anda mencapai pengelompokan akhir yang didukung sepenuhnya, tetapi ada banyak pekerjaan antara awal dan akhir, dan menunjukkan bahwa pengelompokan yang rumit secara empiris berkinerja lebih baik daripada kebetulan adalah penting.
ely
1
Dan beberapa domain aplikasi, katakanlah pasar keuangan, di mana Anda dapat menggunakan classifier dalam banyak kasus independen, menjadi sedikit lebih baik daripada kebetulan (R-kuadrat seperti 11% atau 12% dianggap hebat) dapat sangat berarti. Dalam kasus tersebut, jika bahkan penggolong yang dikuatkan memiliki R-kuadrat sebesar 15% yang mungkin dianggap sangat baik - dalam hal ini sangat penting jika Anda dapat secara statistik menyelesaikan apakah penggolong yang lemah jelas lebih baik daripada menebak.
ely
1

Anda mungkin tertarik dengan makalah-makalah berikut ini:

  • Eric W. Noreen, Metode Intensif Komputer untuk Pengujian Hipotesis: Suatu Pengantar, John Wiley & Sons, New York, NY, AS, 1989.
  • Alexander Yeh, Tes yang lebih akurat untuk signifikansi statistik perbedaan hasil, dalam: Prosiding Konferensi Internasional ke-18 tentang Linguistik Komputasi, Volume 2, halaman 947-953, 2000.

Saya pikir mereka membahas apa yang Dimitrios Athanasakis bicarakan.

Saya menerapkan satu opsi Yeh dengan cara yang saya mengerti:

http://www.clips.uantwerpen.be/~vincent/software#art

vvasch
sumber
0

Saya pikir satu hal yang bisa Anda coba adalah tes permutasi. Sederhananya hanya mengubah secara acak pasangan input yang diinginkan input Anda makan ke classifier Anda beberapa kali. Jika gagal mereproduksi sesuatu pada level yang sama lebih dari 100 permutasi yang berbeda dari itu signifikan pada interval 99% dan seterusnya. Ini pada dasarnya adalah proses yang sama yang digunakan untuk mendapatkan nilai-p (yang sesuai dengan probabilitas untuk mendapatkan korelasi linier dari skala yang sama setelah secara acak memasukkan data) dan seterusnya.

Dimitrios Athanasakis
sumber
Bisakah Anda menguraikan lebih jauh apa yang Anda maksud untuk pasangan input / output yang diinginkan?
Simone