Misalkan saya memiliki algoritma yang mengklasifikasikan hal-hal menjadi dua kategori. Saya dapat mengukur akurasi algoritma pada katakanlah 1000 hal pengujian - misalkan 80% dari hal-hal tersebut diklasifikasikan dengan benar.
Mari kita anggap saya memodifikasi algoritma sehingga 81% dari hal-hal diklasifikasikan dengan benar.
Bisakah statistik memberi tahu saya tentang apakah peningkatan saya terhadap algoritme signifikan secara statistik? Apakah konsep signifikansi statistik relevan dalam situasi ini? Tolong tunjukkan saya ke arah beberapa sumber yang mungkin relevan.
Terimakasih banyak.
Seperti yang dikatakan Erik, ya Anda dapat memeriksa ini untuk signifikansi statistik. Namun, pikirkan sejenak apa yang ingin Anda periksa. Saya pikir pertanyaan yang lebih menarik mungkin adalah menanyakan seberapa besar kemungkinan algoritma yang "ditingkatkan" itu lebih baik (atau lebih bermakna) daripada yang asli, mengingat data dari perbedaan 1% yang diamati. Mengajukan pertanyaan dalam hal "signifikansi statistik" cenderung mengarah pada jenis pertanyaan yang berlawanan: Mengingat bahwa kedua algoritma itu sama, apakah ada peluang kurang dari 5% untuk mengamati peningkatan setidaknya sebanyak ini?
Bagi saya, pertanyaan terakhir adalah mundur, tetapi entah bagaimana telah menjadi standar. Anda dapat memeriksa Wikipedia tentang kontroversi dalam pengujian hipotesis statistik . Anda mungkin kemudian tertarik pada kesimpulan Bayesian . Jika Anda benar-benar ingin masuk ke dalam analisis data Bayesian, Anda dapat memeriksa "Analisis Data Bayesian" dari Gelman et al atau memeriksa pertanyaan ini .
sumber
Menerapkan jawaban Erik ke jawaban Michael :
Anda dapat melakukan jenis pemikiran yang sama dengan Erik ketika memilih ukuran kinerja.
Saya merasa terbantu untuk merujuk pada tindakan yang berbeda seperti itu dengan pertanyaan yang mereka jawab (di sini, dalam bahasa diagnostik medis yang paling saya kenal - tapi mungkin Anda bisa mengganti pasien dengan teks dan penyakit dengan spam ;-)):
Sensitivitas: mengingat pasien benar-benar mengidap penyakit, seberapa besar kemungkinan pengklasifikasi menyadari hal itu?
Spesifisitas: mengingat pasien benar-benar tidak memiliki penyakit, seberapa besar kemungkinan pengklasifikasi menyadari hal itu?
Nilai prediktif positif: mengingat pengklasifikasi mengklaim pasien berpenyakit, seberapa besar kemungkinan pasien menderita penyakit tersebut?
Nilai prediktif negatif: mengingat pengklasifikasi mengklaim pasien tidak berpenyakit, seberapa besar kemungkinan pasien tidak memiliki penyakit tersebut?
Seperti yang Anda lihat, nilai-nilai prediktif adalah apa yang benar-benar diminati oleh para dokter dan pasien. Namun, hampir semua orang menandai penggolongnya dengan sensitivitas dan spesifisitas. Alasannya adalah bahwa nilai-nilai prediktif perlu memperhitungkan prevalensi penyakit, dan itu dapat sangat bervariasi (urutan besarnya!) Untuk berbagai jenis pasien.
Lebih banyak tentang topik untuk pertanyaan Anda:
Saya yakin Anda benar dalam mengkhawatirkan.
Mengambil kedua skenario Erik sebagai contoh:
Berikut adalah contoh uji independen:
(perhatikan bahwa tes ini dua sisi, dengan asumsi kedua pengklasifikasi akan diterbitkan bahkan jika hasilnya sebaliknya ...)
Inilah situasi terbaik: tes berpasangan, dan penggolong baru tepat untuk semua sampel yang lama benar, juga ditambah 10 lebih:
(nilai p tetap di bawah magis 0,05 selama tidak lebih dari 10 sampel dari 1000 diprediksi secara berbeda oleh kedua pengklasifikasi).
Bahkan jika nilai-p adalah jawaban yang tepat untuk pertanyaan yang salah, ada indikasi bahwa itu semacam tempat yang ketat.
Namun, dengan mempertimbangkan praktik ilmiah yang biasa yaitu jumlah fitur baru yang tidak diketahui (tidak dipublikasikan) telah diuji, dan hanya fitur yang bekerja sedikit lebih baik yang dipublikasikan, tempat tersebut menjadi semakin ketat. Dan kemudian, 80% classifier mungkin saja merupakan penerus dari beberapa 79% classifer ...
Jika Anda senang membaca bahasa Jerman, ada beberapa buku yang sangat bagus dari Beck-Bornhold dan Dubben. Jika saya ingat benar, Mit an Wahrscheinlichkeit grenzender Sicherheit memiliki diskusi yang sangat bagus tentang masalah ini. (Saya tidak tahu apakah ada edisi bahasa Inggris, terjemahan yang agak literal dari judulnya adalah "Dengan kepastian yang berbatasan dengan probabilitas")
sumber
Saya akan sangat mencegah penggunaan aturan penilaian tidak terputus yang tidak terputus (skor akurasi seperti sensitivitas, spesifisitas, proporsi yang dikoreksi benar bahwa ketika dioptimalkan menghasilkan model palsu) dan sebagai gantinya menggunakan tes rasio kemungkinan atau uji F parsial untuk nilai tambah yang baru. variabel.
Salah satu dari beberapa cara untuk melihat masalah dengan proporsi yang diklasifikasikan dengan benar adalah bahwa jika proporsi keseluruhan dalam satu kategori adalah 0,9 Anda akan benar 0,9 kali dengan mengabaikan data dan mengklasifikasikan setiap pengamatan sebagai dalam kategori itu.
sumber