Apakah klasifikasi GBM menderita ukuran kelas yang tidak seimbang?

16

Saya sedang berurusan dengan masalah klasifikasi biner yang diawasi. Saya ingin menggunakan paket GBM untuk mengklasifikasikan individu sebagai tidak terinfeksi / terinfeksi. Saya memiliki 15 kali lebih tidak terinfeksi daripada orang yang terinfeksi.

Saya bertanya-tanya apakah model GBM menderita jika ukuran kelas tidak seimbang? Saya tidak menemukan referensi yang menjawab pertanyaan ini.

Saya mencoba menyesuaikan bobot dengan menetapkan 1 untuk individu yang tidak terinfeksi dan 15 untuk yang terinfeksi, tetapi saya mendapatkan hasil yang buruk.

yoyo
sumber
1
(catatan) Akan sangat membantu jika Anda memberikan kepanjangan dari GBM dan tautan ke paket.
Memming
1
Fungsi kerugian mana yang Anda gunakan untuk model peningkatan gradien Anda? Ketika datang ke kelas yang tidak seimbang, saya telah melihat kinerja yang buruk ketika saya telah menggunakan kesalahan absolut karena tampaknya mendukung kelas yang paling umum. Ketika saya menggunakan mean squared error, kinerja meningkat secara substansial
Ryan Zotti
Hanya untuk referensi di masa mendatang, saya menemukan fungsi default loss yang digunakan oleh caret logarithmic loss (cross-deviance) juga cukup membantu. (Ini sangat menghukum kasus-kasus yang salah dalam skala logaritmik negatif)
Lily Long

Jawaban:

4

Dalam pengalaman saya, GBM memang menderita ukuran kelas yang tidak seimbang. Saya telah sukses menggunakan sampel SMOTE, yang menciptakan data sintetis sambil melampiaskan kelas minoritas. Anda dapat menemukannya di DMwRpaket.

Angka tiga
sumber
Saya sedikit bingung. Bukankah GBM seharusnya menjadi pendekatan untuk menangani ketidakseimbangan data? Lihat ini analyticsvidhya.com/blog/2017/03/...
Lamothy
5

Saya pikir data Anda mirip dengan data Secom di mana saya telah bekerja di masa lalu dan menghadapi banyak kesulitan. Berikut ini adalah apa yang saya coba:

  • Teknik pengambilan sampel yang berbeda
  • Klasifikasi yang berbeda seperti Random Forest, ANN, GBM, metode Ensemble, dll.

Saya juga sudah mencoba 1-Class SVM yang telah memberikan hasil yang lebih baik dibandingkan dengan yang lain seperti adaboost, Random Forest. Anda dapat mencobanya juga.

Dan saya dapat melihat Anda telah mengajukan pertanyaan ini 1 tahun yang lalu jadi jika Anda telah menemukan cara terbaik maka silakan posting di sini sehingga saya bisa mendapatkan bantuan darinya untuk mendapatkan akurasi yang lebih baik.

Ankit
sumber