Sulit untuk mengatakan tanpa mengetahui lebih banyak tentang dataset Anda, dan bagaimana dipisahkannya dataset Anda berdasarkan vektor fitur Anda, tetapi saya mungkin akan menyarankan menggunakan hutan acak ekstrem atas hutan acak standar karena kumpulan sampel Anda yang relatif kecil.
Hutan acak ekstrim sangat mirip dengan hutan acak standar dengan satu pengecualian bahwa alih-alih mengoptimalkan pemisahan pada pohon, hutan acak ekstrim membuat pemisahan secara acak. Awalnya ini akan tampak seperti negatif, tetapi umumnya berarti bahwa Anda memiliki generalisasi dan kecepatan yang jauh lebih baik, meskipun AUC pada perangkat pelatihan Anda cenderung sedikit lebih buruk.
Regresi logistik juga merupakan taruhan yang cukup solid untuk tugas-tugas semacam ini, meskipun dengan dimensi Anda yang relatif rendah dan ukuran sampel yang kecil, saya akan khawatir tentang overfitting. Anda mungkin ingin memeriksa menggunakan K-Nearest Neighbors karena sering berkinerja sangat baik dengan dimensi rendah, tetapi biasanya tidak menangani variabel kategori dengan sangat baik.
Jika saya harus memilih satu tanpa tahu lebih banyak tentang masalahnya, saya pasti akan menempatkan taruhan saya di hutan acak ekstrim, karena sangat mungkin memberi Anda generalisasi yang baik pada jenis data ini, dan juga menangani campuran data numerik dan kategorikal dengan lebih baik daripada kebanyakan metode lainnya.
Untuk parameter rendah, ukuran sampel sangat terbatas, dan regresi logistik classifier biner harus cukup kuat. Anda dapat menggunakan algoritme yang lebih canggih, tetapi mungkin terlalu banyak.
sumber
Ketika variabel kategori berada dalam campuran, saya meraih Random Decision Forests, karena variabel variabel langsung ditangani tanpa transformasi pengkodean 1-of-n. Ini kehilangan informasi lebih sedikit.
sumber
Linear SVM harus menjadi titik awal yang baik. Lihatlah panduan ini untuk memilih penaksir yang tepat.
sumber
Tidak akan merekomendasikan penggunaan metode yang rumit terlebih dahulu. Pada awalnya, gunakan pendekatan sederhana yang lebih cepat (kNN, NBC, dll.), Kemudian maju melalui regresi linier, regresi logistik, LDA, CART (RF), KREG, dan kemudian untuk kuadratkan SVM, gradien naik SVM, ANNs, dan kemudian metaheurustics (serakah mendaki bukit heuristik dengan GAS, kecerdasan segerombolan, optimasi koloni semut, dll.)
sumber