Apa pendapat Anda tentang oversampling dalam klasifikasi secara umum, dan algoritma SMOTE pada khususnya? Mengapa kita tidak hanya menerapkan biaya / penalti untuk menyesuaikan ketidakseimbangan dalam data kelas dan biaya kesalahan yang tidak seimbang? Untuk tujuan saya, keakuratan prediksi untuk satu set unit eksperimental di masa depan adalah ukuran utama.
Untuk referensi, makalah SMOTE: http://www.jair.org/papers/paper953.html
machine-learning
classification
oversampling
Dave Cummins
sumber
sumber
Jawaban:
{1} memberikan daftar keuntungan dan kerugian dari pembelajaran yang sensitif biaya vs. pengambilan sampel:
Mereka juga melakukan serangkaian percobaan, yang tidak meyakinkan:
Mereka kemudian mencoba untuk memahami kriteria mana dalam kumpulan data yang mungkin mengisyaratkan teknik mana yang lebih cocok.
Mereka juga berkomentar bahwa SMOTE dapat membawa beberapa peningkatan:
{1} Weiss, Gary M., Kate McCarthy, dan Bibi Zabar. "Pembelajaran sensitif biaya vs. pengambilan sampel: Mana yang terbaik untuk menangani kelas yang tidak seimbang dengan biaya kesalahan yang tidak sama?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=id&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf
sumber