Saya memiliki masalah klasifikasi dengan sekitar 1000 sampel positif dan 10.000 negatif dalam set pelatihan. Jadi kumpulan data ini cukup tidak seimbang. Hutan acak sederhana hanya mencoba menandai semua sampel uji sebagai kelas mayoritas.
Beberapa jawaban yang baik tentang sub-sampling dan hutan acak berbobot diberikan di sini: Apa implikasi untuk melatih suatu Ensemble Pohon dengan dataset yang sangat bias?
Metode klasifikasi apa selain RF yang dapat menangani masalah dengan cara terbaik?
Jawaban:
sumber
Undersampling kelas mayoritas biasanya cara untuk pergi dalam situasi seperti itu.
Jika Anda berpikir bahwa Anda memiliki terlalu sedikit instance dari kelas positif, Anda dapat melakukan oversampling, misalnya, contoh 5n instance dengan penggantian dari dataset ukuran n.
Peringatan:
sumber
Meningkatkan gradien juga merupakan pilihan yang baik di sini. Anda dapat menggunakan classifier meningkatkan gradien di sci-kit belajar misalnya. Gradient boosting adalah metode berprinsip untuk mengatasi ketidakseimbangan kelas dengan membangun serangkaian pelatihan berurutan berdasarkan contoh-contoh yang diklasifikasi secara tidak benar.
sumber
Selain jawaban yang diposting di sini, jika jumlah contoh positif terlalu kecil jika dibandingkan dengan contoh negatif, maka itu hampir menjadi masalah pendeteksian anomali di mana contoh positif adalah anomali.
Anda memiliki serangkaian metode untuk mendeteksi anomali mulai dari menggunakan distribusi gaussian multivarian hingga memodelkan semua poin dan kemudian memilih yang berjarak 2 atau 3 stds dari nilai tengah.
Makanan lain untuk dipikirkan - Saya telah melihat beberapa orang yang secara acak mencicipi contoh negatif dengan lebih banyak contoh sehingga kedua kelas sama jumlahnya. Itu benar-benar tergantung pada masalah yang dihadapi, apakah kita ingin mereka seimbang atau tidak.
sumber