Apa classifier 2-kelas out-of-the-box terbaik? Ya, saya kira itu adalah pertanyaan jutaan dolar, dan ya, saya menyadari teorema makan siang gratis , dan saya juga membaca pertanyaan sebelumnya:
Tetap saja, saya tertarik membaca lebih banyak tentang masalah ini.
Apa sumber informasi yang baik yang mencakup perbandingan umum dari karakteristik, keunggulan, dan fitur dari pengklasifikasi yang berbeda?
Jawaban:
The ESL , sebagaimana telah disebutkan oleh Peter Flom, adalah saran yang sangat baik (catatan bahwa link saya adalah untuk homepage penulis di mana buku tersebut dapat diperoleh sebagai pdf-file yang gratis). Izinkan saya menambahkan beberapa hal yang lebih spesifik untuk dicari dalam buku:
Tambahkan ke buku Machine Learning Task View for R, yang memberikan kesan tentang apa yang sebenarnya bisa dilakukan oleh banyak paket pembelajaran mesin, meskipun tidak ada perbandingan nyata. Untuk pengguna Python saya membayangkan bahwa scikit.learn adalah tempat yang bagus untuk dilihat. Seberapa banyak metode "out-of-the-box" atau "off-the-shelf", sangat ditentukan oleh seberapa baik implementasi berkaitan dengan adaptasi otomatis ke situasi data versus membiarkan penyetelan terperinci kepada pengguna. Dalam pikiran saya, mgcv untuk R adalah contoh yang baik yang membuat pemasangan model aditif umum yang cukup baik sangat mudah dan pada dasarnya tanpa perlu bagi pengguna untuk "mengatur-tune" apa pun.
sumber
Sumber daya yang tercantum oleh orang lain tentu saja berguna, tetapi saya akan berpadu dan menambahkan yang berikut: penggolong "terbaik" cenderung untuk konteks dan data tertentu. Dalam perampokan baru-baru ini untuk menilai pengklasifikasi biner yang berbeda, saya menemukan Boosted Regression Tree untuk bekerja secara konsisten lebih baik daripada metode lain yang saya akses. Hal utama bagi saya adalah belajar bagaimana menggunakan alat penambangan data Orange . Mereka memiliki beberapa dokumentasi yang bagus untuk memulai menjelajahi metode ini dengan data Anda . Sebagai contoh, berikut ini adalah skrip Python pendek yang saya tulis untuk menilai kualitas dari beberapa pengklasifikasi di berbagai ukuran akurasi menggunakan k-fold cross validation.
Ketika saya menjalankan kode ini pada data saya, saya mendapatkan output seperti
Ada banyak lagi yang dapat Anda lakukan dengan objek Oranye untuk mengintrospeksi kinerja dan membuat perbandingan. Saya menemukan paket ini sangat membantu dalam menulis sejumlah kecil kode untuk benar-benar menerapkan metode ke data saya dengan API yang konsisten dan abstraksi masalah (yaitu, saya tidak perlu menggunakan enam paket berbeda dari enam penulis berbeda, masing-masing dengan mereka sendiri pendekatan untuk desain dan dokumentasi API, dll).
sumber
Buku The Elements of Statistics Learning memiliki banyak informasi mengenai hal ini.
sumber
Sumber daya lain yang saya temukan mengenai hal ini (PDF gratis tersedia):
sumber
Menurut penelitian terbaru yang lengkap ini (evaluasi 179 pengklasifikasi pada 121 dataset), pengklasifikasi terbaik adalah hutan acak diikuti oleh mesin vektor dukungan.
sumber