Jadi, saya punya matriks sekitar 60 x 1000. Saya melihatnya sebagai 60 objek dengan 1000 fitur; 60 objek dikelompokkan menjadi 3 kelas (a, b, c). 20 objek di setiap kelas, dan kita tahu klasifikasi sebenarnya. Saya ingin melakukan pembelajaran terawasi pada set 60 contoh pelatihan ini, dan saya tertarik pada akurasi classifier (dan metrik terkait) serta pemilihan fitur pada 1000 fitur.
Pertama, bagaimana nomenklaturu?
Sekarang pertanyaan sebenarnya:
Saya bisa melempar hutan acak seperti yang dinyatakan, atau sejumlah pengklasifikasi lainnya. Tapi ada kehalusan - saya benar-benar hanya peduli tentang membedakan kelas c dari kelas a dan b. Saya dapat menggabungkan kelas a dan b, tetapi adakah cara yang baik untuk menggunakan pengetahuan a priori bahwa semua objek non-c kemungkinan membentuk dua kelompok yang berbeda? Saya lebih suka menggunakan hutan acak atau varian darinya, karena terbukti efektif pada data yang mirip dengan tambang. Tetapi saya dapat diyakinkan untuk mencoba beberapa pendekatan lain.
sumber
Jawaban:
Jika Anda menggunakan metode berbasis pohon, saya pikir itu tidak penting karena partisi pengklasifikasi ini memiliki ruang fitur, kemudian lihat proporsi sampel di setiap kelas. Jadi yang penting adalah kemunculan relatif dari kelas c di setiap simpul terminal.
Namun jika Anda menggunakan sesuatu seperti campuran normals, LDA, dll maka menggabungkan dua kluster akan menjadi ide yang buruk (dengan asumsi kelas a dan b membentuk kluster unik). Di sini Anda perlu melestarikan struktur kelas untuk menggambarkan secara akurat ruang fitur yang memetakan ke a, b dan c. Model-model ini mengasumsikan fitur untuk setiap kelas memiliki distribusi Normal yang berbeda. Jika Anda menggabungkan a dan b, Anda akan memaksa distribusi Normal tunggal agar sesuai dengan campuran.
Singkatnya untuk pohon, tidak masalah jika Anda:
I. Buat tiga pengklasifikasi (1. a vs b, 2. a vs c dan 3. b vs c) kemudian prediksi dengan metode berbasis pemungutan suara.
II Gabungkan kelas a dan b untuk membentuk masalah dua kelas.
AKU AKU AKU. Prediksikan ketiga kelas kemudian petakan prediksi tersebut ke nilai dua kelas (mis. F (c) = c, f (a) = bukan c, f (b) = tidak c).
Namun jika Anda menggunakan metode yang pas distribusi untuk setiap kelas maka hindari II. dan uji yang I. atau III. berfungsi lebih baik untuk masalah Anda
sumber