Kategorisasi pendekatan untuk menangani kelas yang tidak seimbang

8

Apa cara terbaik untuk mengkategorikan pendekatan yang telah dikembangkan untuk mengatasi masalah kelas ketidakseimbangan?

Artikel ini mengelompokkannya menjadi:

  1. Preprocessing: termasuk metode oversampling, undersampling dan hybrid,
  2. Pembelajaran sensitif biaya: termasuk metode langsung dan meta-learning yang selanjutnya dibagi menjadi thresholding dan sampling,
  3. Teknik ensemble: mencakup ansambel yang sensitif terhadap biaya dan pemrosesan data bersama dengan pembelajaran ansambel.

The kedua klasifikasi:

  1. Pra-pemrosesan data: termasuk perubahan distribusi dan pembobotan ruang data. Pembelajaran satu kelas dianggap sebagai perubahan distribusi.
  2. Metode Pembelajaran Tujuan Khusus
  3. Prediksi Post-processing: termasuk metode threshold dan post-processing yang sensitif biaya
  4. Metode Hibrida:

Artikel ketiga :

  1. Metode tingkat data
  2. Metode tingkat algoritma
  3. Metode hibrid

Klasifikasi terakhir juga menganggap penyesuaian output sebagai pendekatan independen.

Terima kasih sebelumnya.

ebrahimi
sumber
4
Jawaban yang sangat singkat: semuanya adalah yang terbaik dan semuanya adalah yang terburuk! Klasifikasi dan penambangan data pada umumnya sangat peka konteks. Tidak ada satu ukuran cocok untuk semua solusi di domain ini. Omong-omong, pendekatan terbaik, dalam istilah yang sangat umum, biasanya merupakan kombinasi dari keputusan terbaik di tingkat yang berbeda dari ekstraksi fitur, ke skema evaluasi.
mok
@ mas, terima kasih. Bisakah Anda memberi tahu saya bobot kelas dalam pengklasifikasi sklearn misalnya, regresi logistik diklasifikasikan ke dalam kategori mana?
ebrahimi
@ebrahimi, harus jatuh ke level algoritma karena hanya bobot yang disesuaikan menurut kamus yang diberikan atau dihitung (disimpulkan) sesuai dengan nilai y (kelas) dan data tetap tidak tersentuh.
Sanjay Krishna
@SanjayKrishna Terima kasih banyak. Dalam kasus kategorisasi pertama, itu jatuh ke dalam pembelajaran yang sensitif biaya, bukan? Juga, dalam kasus taksonomi kedua, itu akan diklasifikasikan ke dalam kategori ketiga yaitu, pasca-pemrosesan sensitif biaya. apakah itu benar Jawaban kedua untuk ini: stackoverflow.com/questions/32492550/… juga berguna.
ebrahimi

Jawaban:

5

Cara saya melihatnya ketiga kategorisasi setuju dalam banyak hal. Misalnya, ketiganya memiliki kategori untuk langkah-langkah pra-pemrosesan.

Saya cenderung setuju pada kategorisasi ketiga karena lebih umum dan mencakup lebih banyak hal.

  • The data tingkat kategori termasuk pra-pengolahan langkah menangani ketidakseimbangan kelas (misalnya atas / bawah sampel).
  • Tingkat algoritma dapat dipertimbangkan untuk memasukkan kategori kedua dari dua artikel pertama. Setiap perubahan pada algoritma yang berhubungan dengan ketidakseimbangan kelas akan dilakukan di sini (misalnya pembobotan kelas).
  • Akhirnya, kategori hibrida untuk menggabungkan keduanya.

Satu-satunya hal yang hilang dari dua artikel pertama adalah langkah-langkah pasca-pemrosesan, yang sejujurnya, tidak digunakan dalam praktik sesering yang lain.

Ini aku Mario
sumber