Kapan kita harus mempertimbangkan dataset sebagai tidak seimbang?

10

Saya menghadapi situasi di mana jumlah contoh positif dan negatif dalam dataset tidak seimbang.

Pertanyaan saya adalah, apakah ada aturan praktis yang memberi tahu kami kapan kami harus melakukan subsampel kategori besar untuk memaksa semacam penyeimbangan dalam dataset.

Contoh:

  • Jika jumlah contoh positif adalah 1.000 dan jumlah contoh negatif adalah 10.000, haruskah saya pergi untuk pelatihan classifier saya pada dataset lengkap atau saya harus sampel contoh negatif?
  • Pertanyaan yang sama untuk 1.000 contoh positif dan 100.000 negatif.
  • Pertanyaan yang sama untuk 10.000 positif dan 1.000 negatif.
  • dll ...
Rami
sumber
Tidak ada yang salah dengan dataset yang tidak terpecah sempurna di tengah. Apa teknik pemodelan yang Anda gunakan? Jika teknik ini mengandalkan data "seimbang", Anda mungkin menggunakan teknik yang salah.
D3C34C34D
1
Nina Zumel meneliti efek menyeimbangkan pada estimator yang berbeda di sini , ini dapat membantu orang lain juga. Dia melihat hutan acak, SVM dan estimasi logit.
CFM

Jawaban:

9

Saya pikir subsampling (downsampling) adalah metode yang populer untuk mengontrol ketidakseimbangan kelas di tingkat dasar, yang berarti itu memperbaiki akar masalah. Jadi untuk semua contoh Anda, memilih 1.000 dari mayoritas kelas secara acak setiap waktu akan berhasil. Anda bahkan bisa bermain-main dengan membuat 10 model (10 lipatan 1.000 mayoritas vs. 1.000 minoritas) sehingga Anda akan menggunakan seluruh rangkaian data Anda. Anda dapat menggunakan metode ini, tetapi sekali lagi Anda agak membuang 9.000 sampel kecuali Anda mencoba beberapa metode ensemble. Perbaikan mudah, tetapi sulit untuk mendapatkan model yang optimal berdasarkan data Anda.

Sejauh mana Anda perlu mengontrol ketidakseimbangan kelas sebagian besar didasarkan pada tujuan Anda. Jika Anda peduli tentang klasifikasi murni, maka ketidakseimbangan akan mempengaruhi 50% probabilitas terputus untuk sebagian besar teknik, jadi saya akan mempertimbangkan downsampling. Jika Anda hanya peduli dengan urutan klasifikasi (ingin positif umumnya lebih tinggi daripada negatif) dan menggunakan ukuran seperti AUC, ketidakseimbangan kelas hanya akan bias probabilitas Anda, tetapi urutan relatif harus cukup stabil untuk sebagian besar teknik.

Regresi logistik bagus untuk ketidakseimbangan kelas karena selama Anda memiliki> 500 dari kelas minoritas, perkiraan parameter akan cukup akurat dan satu-satunya dampak akan ada pada intersep, yang dapat dikoreksi jika itu adalah sesuatu yang Anda mungkin ingin. Regresi logistik memodelkan probabilitas daripada hanya kelas, sehingga Anda dapat melakukan lebih banyak penyesuaian manual sesuai dengan kebutuhan Anda.

Banyak teknik klasifikasi juga memiliki argumen bobot kelas yang akan membantu Anda lebih fokus pada kelas minoritas. Ini akan menghukum klasifikasi keliru dari kelas minoritas yang benar, sehingga keseluruhan akreditasi Anda akan sedikit menderita tetapi Anda akan mulai melihat lebih banyak kelas minoritas yang diklasifikasikan dengan benar.

TBSRounder
sumber
Bisakah Anda memperluas panduan Anda tentang "selama Anda memiliki> 500 dari kelas minoritas"? Dari mana Anda mendapatkan nomor 500 ini? Apakah ini berdasarkan pengalaman Anda? Saya mengharapkan persentase dari jawaban Anda.
Jas
2

Ketidakseimbangan tidak didefinisikan secara formal tetapi rasio 1 sampai 10 biasanya cukup tidak seimbang untuk mendapatkan manfaat dari menggunakan teknik balancing.

Ada dua jenis ketidakseimbangan, relatif dan absolut. Secara relatif rasio antara kelas mayoritas dan minoritas tidak seimbang. Secara absolut Anda juga memiliki sejumlah kecil sampel minoritas. Semakin tinggi rasio ketidakseimbangan, semakin besar kemungkinan Anda akan mencapai ketidakseimbangan absolut juga.

Harap dicatat bahwa subsampling lurus ke depan bukan cara yang optimal untuk mengatasi dataset yang tidak seimbang. Itu karena Anda harus membuat classifier yang akan bekerja dengan baik pada dataset asli Anda. Untuk teknik membangun pengklasifikasi pada dataset yang tidak seimbang lihat di sini . Untuk mengevaluasi classifier Anda, lihat di sini .

Dl
sumber
2

Masalah ketidakseimbangan data ?? Secara teori, ini hanya tentang angka. Bahkan jika perbedaannya adalah 1 sampel itu adalah ketidakseimbangan data

Secara praktis, mengatakan ini adalah masalah ketidakseimbangan data dikendalikan oleh tiga hal: 1. Jumlah dan distribusi Sampel yang Anda miliki 2. Variasi dalam kelas yang sama 3. Kesamaan antara kelas yang berbeda

Dua poin terakhir mengubah cara kita mempertimbangkan masalah kita.

Untuk menjelaskan ini izinkan saya memberi contoh: Kelas A = 100 sampel Kelas B = 10 000

Jika variasi dalam kelas B sangat rendah, maka pengambilan sampel cukup, tidak ada masalah ketidakseimbangan data

Jika variasi sangat tinggi dalam kelas b, maka pengambilan sampel turun dapat menyebabkan hilangnya informasi Dan berbahaya untuk menerapkan pengambilan sampel bawah

Hal lain, memiliki banyak sampel (terutama untuk kelas minoritas) akan mengendurkan masalah ketidakseimbangan data dan membuatnya lebih mudah untuk ditangani.

Misalnya 10: 100. Vs. 1000: 10 000

Bashar Haddad
sumber