Saya baru mengenal pembelajaran mesin dan mencoba menggunakan scikit-learning (sklearn) untuk menangani masalah klasifikasi. Baik DecisionTree dan SVM dapat melatih classifier untuk masalah ini.
Saya menggunakan sklearn.ensemble.RandomForestClassifier
dan sklearn.svm.SVC
menyesuaikan data pelatihan yang sama (sekitar 500.000 entri dengan 50 fitur per entri). The RandomForestClassifier keluar dengan classifier di sekitar satu menit. The SVC menggunakan lebih dari 24 jam dan masih terus berjalan.
Mengapa SVC berkinerja sangat tidak efisien? Apakah set data terlalu besar untuk SVC ? Apakah SVC tidak tepat untuk masalah seperti itu?
Pohon Keputusan dan Hutan Acak sebenarnya adalah pengklasifikasi yang sangat baik. Sementara SVM's (Support Vector Machines) dipandang lebih kompleks, itu tidak berarti mereka akan berkinerja lebih baik.
Makalah "Perbandingan Empiris Algoritma Pembelajaran yang Dibimbing" oleh Rich Caruana membandingkan 10 pengklasifikasi biner yang berbeda, SVM, Neural-Networks, KNN, Regresi Logistik, Naive Bayes, Hutan Acak, Pohon Pengambilan Keputusan, Pohon Pengambilan Keputusan Bagged, Pohon Keputusan yang Didorong dan Pohon Keputusan yang Didongkrak Pohon di sebelas set data yang berbeda dan membandingkan hasilnya pada 8 metrik kinerja yang berbeda.
Mereka menemukan bahwa pohon keputusan Boosted datang pertama dengan Random Forests kedua dan kemudian Decision Trees Bagged dan kemudian SVM
Hasilnya juga akan tergantung pada berapa banyak kelas yang Anda klasifikasikan.
sumber
"Apakah masalah itu linear atau tidak" Dalam masalah klasifikasi biner, jika dataset dapat dipisahkan oleh hyper-plane, itu adalah masalah linier.
Jika dataset tidak dapat dipisahkan secara linier, saat Anda mencoba classifier linier untuk menemukan hyper-plane yang tidak ada sama sekali, algoritme mungkin tampak berjalan selamanya.
Satu saran: Anda dapat mencicipi sebagian kecil dari data Anda, dan coba algoritma ini untuk melihat apakah itu berfungsi dalam dataset kecil. Kemudian tingkatkan dataset untuk memeriksa kapan masalah ini terjadi.
sumber