Apakah ada aplikasi di mana SVM masih unggul?

10

Algoritma SVM cukup tua - dikembangkan tahun 1960-an, tetapi sangat populer pada 1990-an dan 2000-an. Ini adalah bagian klasik (dan sangat indah) dari kursus pembelajaran mesin.

Saat ini tampaknya dalam pemrosesan media (gambar, suara, dll.) Jaringan saraf benar-benar mendominasi, sementara di daerah lain Gradient Boosting memiliki posisi yang sangat kuat.

Juga, dalam kompetisi data terbaru saya tidak melihat solusi berbasis SVM.

Saya mencari contoh aplikasi di mana SVM masih memberikan hasil yang canggih (per 2016).

Pembaruan: Saya ingin memiliki beberapa contoh yang dapat saya berikan misalnya untuk siswa / kolega ketika menjelaskan SVM sehingga tidak tampak seperti pendekatan yang murni teoretis atau usang.

Alleo
sumber
3
Unggul dalam arti apa? Beberapa metrik kinerja? Melatih jaringan syaraf yang dalam membutuhkan banyak waktu komputer, tetapi saya bisa melatih SVM yang bisa diservis di laptop saya.
Sycorax berkata Reinstate Monica
@ user777 Maksudku, metrik klasifikasi / regresi yang sesuai untuk bidang aplikasi, tentu saja. Masalah dengan kompleksitas komputasi untuk DL adalah penting, tetapi ini sedikit keluar dari ruang lingkup pertanyaan ini.
Alleo

Jawaban:

11

Menurut kertasnya, Apakah Kita Membutuhkan Ratusan Penggolong untuk Memecahkan Masalah Klasifikasi Dunia Nyata? SVM bersama dengan Random Forest dan Gradient Booting Machines adalah di antara algoritma klasifikasi berkinerja terbaik untuk set besar 120+ dataset (menggunakan akurasi sebagai metrik).

Saya mengulangi percobaan mereka dengan beberapa modifikasi dan saya membuat tiga pengklasifikasi ini berkinerja lebih baik daripada yang lain, tetapi karena teorema tidak makan siang gratis mengatakan selalu ada masalah di mana beberapa algoritma lainnya berkinerja lebih baik dari ketiga.

Jadi ya, saya akan mengatakan bahwa SVM (dengan kernel Gaussian - itulah yang saya gunakan) masih merupakan algoritma yang relevan untuk dataset terkait non-media.

Jacques Wainer
sumber
Hai, terima kasih atas tanggapannya! Saya telah melihat studi yang menarik ini. Sejauh yang saya mengerti, idenya adalah untuk melihat berapa banyak classifier memberi tanpa penyetelan serius (sementara analis data harus melakukan penyetelan IMO). Sebuah studi terkait bidang akan lebih menarik.
Alleo
1
Saya ingat bahwa Delgado et all tidak melakukan pencarian yang sangat terperinci untuk hyperparameter terbaik, tetapi jika mereka melakukan pencarian. Pertanyaannya (yang saya tidak punya jawaban) adalah apakah pencarian yang lebih baik untuk hypeparameters terbaik akan menghasilkan hasil yang berbeda. Jika itu benar itu berarti bahwa algoritma yang bersaing untuk SVM secara umum memiliki puncak yang sangat tajam dalam akurasi untuk hyperparameters tertentu, yang saya pikir merupakan faktor negatif untuk algoritma.
Jacques Wainer
Juga satu komentar kecil adalah bahwa dataset UCI (digunakan untuk tes) sebagian besar cukup kecil. Saya ingin tahu apakah ini bisa menjadi penjelasan untuk hasil peningkatan yang buruk? Sebagian besar tantangan kaggle (dengan banyak data) menunjukkan kinerja GB yang unggul.
Alleo
Saya setuju set datanya kecil. Untuk dataset yang lebih besar saya telah menggunakan Random Forests saat ini - akan mulai menggunakan GBM segera setelah saya lebih nyaman dengan hyperparameters - Saya tidak tahu seberapa masuk akal GBM kepada mereka.
Jacques Wainer