Dalam beberapa tahun terakhir, Jaringan Neural Konvolusional (CNN) telah menjadi yang terdepan untuk pengenalan objek dalam visi komputer. Biasanya, CNN terdiri dari beberapa lapisan konvolusional, diikuti oleh dua lapisan yang sepenuhnya terhubung. Intuisi di balik ini adalah bahwa lapisan konvolusional belajar representasi yang lebih baik dari data input, dan lapisan yang terhubung sepenuhnya kemudian belajar untuk mengklasifikasikan representasi ini berdasarkan seperangkat label.
Namun, sebelum CNN mulai mendominasi, Support Vector Machines (SVMs) adalah yang paling canggih. Jadi tampaknya masuk akal untuk mengatakan bahwa SVM masih merupakan pengklasifikasi yang lebih kuat daripada jaringan saraf dua lapis yang terhubung penuh. Oleh karena itu, saya bertanya-tanya mengapa CNN canggih cenderung menggunakan lapisan yang sepenuhnya terhubung untuk klasifikasi daripada SVM? Dengan cara ini, Anda akan memiliki yang terbaik dari kedua dunia: representasi fitur yang kuat, dan classifier yang kuat, daripada representasi fitur yang kuat tetapi hanya ...
Ada ide?