Misalkan saya tertarik dalam tiga kelas , , . Tetapi dataset saya sebenarnya mengandung beberapa kelas nyata .c 2 c 3 ( c j ) n j = 4
Jawaban yang jelas adalah mendefinisikan kelas baru yang merujuk ke semua kelas , tetapi saya menduga ini bukan ide yang baik karena sampel dalam akan langka dan tidak sangat mirip satu sama lain.cjj>3 c 4
Untuk memvisualisasikan apa yang saya katakan, kira saya memiliki berikut dua ruang variabel dan kelas , , , digambarkan dalam warna merah, til, hijau dan hitam masing-masing. Ini adalah bagaimana saya menduga data saya akan terlihat seperti.c 2 c 3 c 4 = ⋃ n j = 4 c j
Apakah ada cara standar untuk mendekati masalah ini? Apa yang akan menjadi pengklasifikasi paling efisien dan mengapa?
machine-learning
classification
h3h325
sumber
sumber
Jawaban:
Saya akan menggunakan pendekatan dua langkah, menggunakan gagasan kelas Anda sebutkan.c4^
Pada langkah pertama, gunakan classifier biner (dilatih pada seluruh dataset) untuk memutuskan apakah sampel milik kelas (yaitu di kelas yang tidak menarik). Untuk ini, langkah Anda juga bisa melihat metode deteksi outlier , jika sampel yang termasuk dalam kelas "menarik" jauh berbeda dari yang lain.c4^
Jika hasilnya negatif, lanjutkan ke langkah berikutnya, classifier baru dilatih hanya pada sampel yang termasuk dalam kelas dan gunakan prediksi itu sebagai yang terakhir.c1,c2,c3
Saya pikir bahkan menggunakan pendekatan pengelompokan sederhana sebagai langkah pertama (mis. 4-pengelompokan k-means menggunakan sebagai centroid awal nilai rata-rata centroid untuk setiap ), masih akan berguna.c1,c2,c3,^ c 4centj=∑xi∈D:yi=jxi∑xi∈D:yi=j1 c1,c2,c3,c4^
sumber