Selain itu karakteristik classifier jelas seperti
- biaya komputasi,
- tipe data yang diharapkan dari fitur / label dan
- kesesuaian untuk ukuran dan dimensi set data tertentu,
apa lima (atau 10, 20?) pengklasifikasi teratas untuk dicoba pertama kali pada kumpulan data baru yang belum diketahui banyak orang (mis. semantik dan korelasi fitur individual)? Biasanya saya mencoba Naive Bayes, Nearest Neighbor, Decision Tree dan SVM - meskipun saya tidak memiliki alasan yang baik untuk pemilihan ini selain saya mengenal mereka dan kebanyakan mengerti bagaimana mereka bekerja.
Saya kira kita harus memilih pengklasifikasi yang mencakup pendekatan klasifikasi umum yang paling penting . Pilihan mana yang akan Anda rekomendasikan, sesuai dengan kriteria itu atau karena alasan lain?
PEMBARUAN: Formulasi alternatif untuk pertanyaan ini bisa berupa: "Pendekatan umum apa yang ada untuk klasifikasi dan metode spesifik mana yang paling penting / populer / menjanjikan?"
sumber
Jawaban:
Hutan Acak
Cepat, kuat, akurasi yang baik, dalam banyak kasus tidak ada yang perlu disetel, tidak memerlukan normalisasi, kebal terhadap collinearity, menghasilkan perkiraan kesalahan yang cukup baik dan peringkat kepentingan yang berguna sebagai efek samping dari pelatihan, paralel paralel, yang diprediksi dalam sekejap mata.
Kelemahan: lebih lambat daripada metode sepele seperti kNN atau NB, paling baik digunakan dengan kelas yang sama, akurasi lebih buruk daripada SVM untuk masalah yang sangat membutuhkan trik kernel, kotak hitam yang sulit, tidak menghasilkan kopi.
sumber
Penggolong proses Gaussian (tidak menggunakan pendekatan Laplace), lebih disukai dengan marginalisasi daripada optimasi parameter-hiper. Mengapa?
Kerugian
Pilihan pertama meskipun akan diatur regresi logistik atau regresi punggungan [tanpa pemilihan fitur] - untuk sebagian besar masalah, algoritma yang sangat sederhana bekerja lebih baik dan lebih sulit untuk salah (dalam prakteknya perbedaan dalam kinerja antara algoritma lebih kecil daripada perbedaan dalam kinerja antara operator yang menggerakkan mereka).
sumber
Sendiri saat Anda mendekati kumpulan data baru, Anda harus mulai memperhatikan seluruh masalah. Pertama-tama dapatkan distribusi untuk fitur-fitur kategorikal dan mean dan standar deviasi untuk setiap fitur kontinu. Kemudian:
Kemudian saya biasanya membagi teknik klasifikasi dalam 2 set: teknik kotak putih dan kotak hitam. Jika Anda perlu tahu 'bagaimana cara kerja pengklasifikasi', Anda harus memilih di set pertama, misalnya Pengklasifikasi Berbasis Keputusan atau Aturan.
Jika Anda perlu mengklasifikasikan catatan baru tanpa membuat model, Anda harus memperhatikan pembelajar yang bersemangat, misalnya KNN.
Setelah itu saya pikir lebih baik untuk memiliki ambang batas antara akurasi dan kecepatan: Neural Network sedikit lebih lambat dari SVM.
Ini adalah teknik klasifikasi lima besar saya:
sumber