Pilih algoritma klasifikasi biner

16

Saya memiliki masalah klasifikasi biner:

  • Sekitar 1000 sampel dalam set pelatihan
  • 10 atribut, termasuk biner, numerik, dan kategorikal

Algoritma mana yang merupakan pilihan terbaik untuk masalah jenis ini?

Secara default saya akan mulai dengan SVM (pendahuluan memiliki nilai atribut nominal yang dikonversi ke fitur biner), karena dianggap yang terbaik untuk data yang relatif bersih dan tidak berisik.

IharS
sumber

Jawaban:

15

Sulit untuk mengatakan tanpa mengetahui lebih banyak tentang dataset Anda, dan bagaimana dipisahkannya dataset Anda berdasarkan vektor fitur Anda, tetapi saya mungkin akan menyarankan menggunakan hutan acak ekstrem atas hutan acak standar karena kumpulan sampel Anda yang relatif kecil.

Hutan acak ekstrim sangat mirip dengan hutan acak standar dengan satu pengecualian bahwa alih-alih mengoptimalkan pemisahan pada pohon, hutan acak ekstrim membuat pemisahan secara acak. Awalnya ini akan tampak seperti negatif, tetapi umumnya berarti bahwa Anda memiliki generalisasi dan kecepatan yang jauh lebih baik, meskipun AUC pada perangkat pelatihan Anda cenderung sedikit lebih buruk.

Regresi logistik juga merupakan taruhan yang cukup solid untuk tugas-tugas semacam ini, meskipun dengan dimensi Anda yang relatif rendah dan ukuran sampel yang kecil, saya akan khawatir tentang overfitting. Anda mungkin ingin memeriksa menggunakan K-Nearest Neighbors karena sering berkinerja sangat baik dengan dimensi rendah, tetapi biasanya tidak menangani variabel kategori dengan sangat baik.

Jika saya harus memilih satu tanpa tahu lebih banyak tentang masalahnya, saya pasti akan menempatkan taruhan saya di hutan acak ekstrim, karena sangat mungkin memberi Anda generalisasi yang baik pada jenis data ini, dan juga menangani campuran data numerik dan kategorikal dengan lebih baik daripada kebanyakan metode lainnya.

indico
sumber
baik terima kasih! Meskipun belum yakin apakah saya dapat menggunakan paket R "randomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) untuk menghasilkan ERF. Mungkin tidak.
IharS
12

Untuk parameter rendah, ukuran sampel sangat terbatas, dan regresi logistik classifier biner harus cukup kuat. Anda dapat menggunakan algoritme yang lebih canggih, tetapi mungkin terlalu banyak.

neone4373
sumber
5

Ketika variabel kategori berada dalam campuran, saya meraih Random Decision Forests, karena variabel variabel langsung ditangani tanpa transformasi pengkodean 1-of-n. Ini kehilangan informasi lebih sedikit.

Sean Owen
sumber
5

Linear SVM harus menjadi titik awal yang baik. Lihatlah panduan ini untuk memilih penaksir yang tepat.

Stanpol
sumber
2

Tidak akan merekomendasikan penggunaan metode yang rumit terlebih dahulu. Pada awalnya, gunakan pendekatan sederhana yang lebih cepat (kNN, NBC, dll.), Kemudian maju melalui regresi linier, regresi logistik, LDA, CART (RF), KREG, dan kemudian untuk kuadratkan SVM, gradien naik SVM, ANNs, dan kemudian metaheurustics (serakah mendaki bukit heuristik dengan GAS, kecerdasan segerombolan, optimasi koloni semut, dll.)


sumber