Saya ingin mencoba menggunakan Support Vector Machines (SVMs) pada dataset saya. Sebelum saya mencoba masalah, saya diperingatkan bahwa SVM tidak bekerja dengan baik pada data yang sangat tidak seimbang. Dalam kasus saya, saya dapat memiliki sebanyak 95-98% 0 dan 2-5% 1.
Saya mencoba untuk menemukan sumber daya yang berbicara tentang penggunaan SVM pada data yang jarang / tidak seimbang, tetapi yang dapat saya temukan adalah 'sparseSVMs' (yang menggunakan sejumlah kecil vektor dukungan).
Saya berharap seseorang dapat menjelaskan secara singkat:
- Seberapa baik SVM diharapkan dilakukan dengan dataset seperti itu
- Yang mana, jika ada, modifikasi harus dilakukan pada algoritma SVM
- Sumber / makalah apa yang membahas hal ini
sumber
SVM bekerja dengan baik pada data yang jarang dan tidak seimbang. SVM berbobot kelas dirancang untuk menangani data yang tidak seimbang dengan menetapkan hukuman kesalahan klasifikasi yang lebih tinggi untuk contoh pelatihan kelas minoritas.
sumber
Dalam hal data yang jarang seperti itu, SVM akan bekerja dengan baik.
Seperti yang dinyatakan oleh @Bitwise Anda tidak boleh menggunakan akurasi untuk mengukur kinerja algoritma.
Alih-alih, Anda harus menghitung ketepatan, daya ingat, dan F-Score dari algoritma.
sumber