Dalam masalah klasifikasi teks kecil yang saya lihat, Naif Bayes telah menunjukkan kinerja yang mirip atau lebih besar dari SVM dan saya sangat bingung.
Saya bertanya-tanya faktor apa yang menentukan kemenangan dari satu algoritma di atas yang lain. Apakah ada situasi di mana tidak ada gunanya menggunakan Naif Bayes di atas SVM? Bisakah seseorang menjelaskan ini?
Jawaban:
Tidak ada jawaban tunggal tentang metode klasifikasi terbaik untuk dataset yang diberikan . Berbagai jenis pengklasifikasi harus selalu dipertimbangkan untuk studi banding atas dataset yang diberikan. Mengingat sifat-sifat dataset, Anda mungkin memiliki beberapa petunjuk yang dapat memberikan preferensi pada beberapa metode. Namun, masih disarankan untuk bereksperimen dengan semua, jika memungkinkan.
Naive Bayes Classifier (NBC) dan Support Vector Machine (SVM) memiliki opsi yang berbeda termasuk pilihan fungsi kernel untuk masing-masing. Keduanya sensitif terhadap optimasi parameter (yaitu pemilihan parameter yang berbeda dapat secara signifikan mengubah outputnya) . Jadi, jika Anda memiliki hasil yang menunjukkan bahwa NBC berkinerja lebih baik daripada SVM. Ini hanya berlaku untuk parameter yang dipilih. Namun, untuk pemilihan parameter lain, Anda mungkin menemukan SVM berkinerja lebih baik.
Secara umum, jika asumsi independensi dalam NBC dipenuhi oleh variabel-variabel dataset Anda dan tingkat tumpang tindih kelas kecil (yaitu batas keputusan linear potensial), NBC diharapkan akan mencapai yang baik. Untuk beberapa set data, dengan optimisasi menggunakan pemilihan fitur wrapper, misalnya, NBC dapat mengalahkan pengklasifikasi lainnya. Bahkan jika itu mencapai kinerja yang sebanding, NBC akan lebih diinginkan karena kecepatannya yang tinggi.
Singkatnya, kita tidak boleh memilih metode klasifikasi apa pun jika itu mengungguli yang lain dalam satu konteks karena mungkin gagal parah dalam yang lain. ( INI NORMAL DALAM MASALAH DATA MINING ).
sumber