Saya perlu mengklasifikasikan URL ke dalam kategori. Katakanlah saya memiliki 15 kategori yang saya rencanakan untuk menurunkan setiap URL.
Apakah pengklasifikasi 15 arah lebih baik? Di mana saya memiliki 15 label dan menghasilkan fitur untuk setiap titik data.
Atau membangun 15 pengklasifikasi biner, katakan: Film atau Non-Film, dan gunakan angka yang saya dapatkan dari klasifikasi ini untuk membuat ranker, untuk memilih kategori terbaik, akan lebih baik?
Ini akan tergantung pada bagaimana data Anda tersebar. Ada contoh indah yang baru-baru ini diberikan kepada pertanyaan serupa di mana OP ingin tahu apakah fungsi diskriminan linear tunggal akan menjadi pengklasifikasi yang lebih baik untuk menentukan populasi A vs B atau C atau yang didasarkan pada fungsi diskriminan linear mutliple yang memisahkan A, B dan C. Seseorang memberikan scatterplot berwarna yang sangat bagus untuk menunjukkan bagaimana menggunakan dua diskriminan akan lebih baik daripada satu dalam kasus itu. Saya akan mencoba menautkannya.
sumber
Beberapa metode menangani multiclass, Random Forests, MLPs misalnya.
Jika Anda tidak ingin seperti itu, maka ada kemungkinan ECOC dapat melakukan 1-vs-All untuk masalah Anda, hanya pengujian yang akan membuktikannya.
sumber