Saya sedang berurusan dengan masalah klasifikasi biner yang diawasi. Saya ingin menggunakan paket GBM untuk mengklasifikasikan individu sebagai tidak terinfeksi / terinfeksi. Saya memiliki 15 kali lebih tidak terinfeksi daripada orang yang terinfeksi.
Saya bertanya-tanya apakah model GBM menderita jika ukuran kelas tidak seimbang? Saya tidak menemukan referensi yang menjawab pertanyaan ini.
Saya mencoba menyesuaikan bobot dengan menetapkan 1 untuk individu yang tidak terinfeksi dan 15 untuk yang terinfeksi, tetapi saya mendapatkan hasil yang buruk.
Jawaban:
Dalam pengalaman saya, GBM memang menderita ukuran kelas yang tidak seimbang. Saya telah sukses menggunakan sampel SMOTE, yang menciptakan data sintetis sambil melampiaskan kelas minoritas. Anda dapat menemukannya di
DMwR
paket.sumber
Saya pikir data Anda mirip dengan data Secom di mana saya telah bekerja di masa lalu dan menghadapi banyak kesulitan. Berikut ini adalah apa yang saya coba:
Saya juga sudah mencoba 1-Class SVM yang telah memberikan hasil yang lebih baik dibandingkan dengan yang lain seperti adaboost, Random Forest. Anda dapat mencobanya juga.
Dan saya dapat melihat Anda telah mengajukan pertanyaan ini 1 tahun yang lalu jadi jika Anda telah menemukan cara terbaik maka silakan posting di sini sehingga saya bisa mendapatkan bantuan darinya untuk mendapatkan akurasi yang lebih baik.
sumber