Saya telah banyak berpikir tentang "masalah ketidakseimbangan kelas" dalam pembelajaran mesin / statistik akhir-akhir ini, dan saya semakin dalam merasakan bahwa saya tidak mengerti apa yang sedang terjadi.
Pertama, biarkan saya mendefinisikan (atau mencoba) mendefinisikan istilah saya:
Masalah ketidakseimbangan kelas dalam pembelajaran mesin / statistik adalah pengamatan bahwa beberapa algoritma klasifikasi biner (*) tidak berkinerja baik ketika proporsi 0 kelas ke 1 kelas sangat condong.
Jadi, di atas, misalnya, jika ada seratus kelas untuk setiap kelas tunggal , saya akan mengatakan ketidakseimbangan kelas adalah hingga , atau .
Sebagian besar pernyataan masalah yang saya lihat tidak memiliki apa yang saya anggap sebagai kualifikasi yang memadai (model apa yang berjuang, seberapa tidak seimbangnya masalah), dan ini adalah salah satu sumber kebingungan saya.
Sebuah survei dari teks standar dalam pembelajaran mesin / statistik ternyata sedikit:
- Elemen Miring Statistik dan Pengantar Pembelajaran Statistik tidak mengandung "ketidakseimbangan kelas" dalam indeks.
Pembelajaran Mesin untuk Analisis Data Prediktif juga tidak mengandung "ketidakseimbangan kelas" dalam indeks.
Pembelajaran Mesin Murphy : Perspektif Probabilistik memang mengandung "ketidakseimbangan kelas * dalam indeks. Referensi adalah bagian tentang SVM, di mana saya menemukan komentar menggoda berikut:
Perlu diingat bahwa semua kesulitan ini, dan kebanyakan heuristik yang telah diusulkan untuk memperbaikinya, secara fundamental muncul karena SVM tidak memodelkan ketidakpastian menggunakan probabilitas, sehingga skor output mereka tidak dapat dibandingkan di semua kelas.
Komentar ini sesuai dengan intuisi dan pengalaman saya: pada pekerjaan saya sebelumnya, kami secara rutin akan menyesuaikan regresi logistik dan gradien meningkatkan model pohon (untuk meminimalkan kemungkinan log binomial) untuk data yang tidak seimbang (berdasarkan urutan ketidakseimbangan kelas ), dengan tidak ada masalah yang jelas dalam kinerja.
Saya telah membaca (di suatu tempat) bahwa model klasifikasi pohon (pohon sendiri dan hutan acak) juga menderita masalah ketidakseimbangan kelas. Ini sedikit memperkeruh air, pepohonan, dalam beberapa hal, mengembalikan probabilitas: catatan pemungutan suara untuk kelas target di setiap simpul terminal pohon.
Jadi, untuk menyelesaikannya, apa yang saya benar-benar kejar adalah pemahaman konseptual tentang kekuatan yang menyebabkan masalah ketidakseimbangan kelas (jika ada).
- Apakah itu sesuatu yang kita lakukan untuk diri kita sendiri dengan algoritma yang dipilih dengan buruk dan ambang batas klasifikasi standar yang malas?
- Apakah itu hilang jika kita selalu cocok dengan model probabilitas yang mengoptimalkan kriteria penilaian yang tepat? Dikatakan berbeda, apakah penyebabnya hanyalah pilihan yang buruk dari fungsi kerugian, yaitu mengevaluasi kekuatan prediksi model berdasarkan aturan klasifikasi keras dan akurasi keseluruhan?
- Jika demikian, apakah model yang tidak mengoptimalkan aturan pemberian skor yang tepat kemudian tidak berguna (atau setidaknya kurang bermanfaat)?
(*) Menurut klasifikasi saya maksudkan setiap model statistik cocok dengan data respons biner. Saya tidak berasumsi bahwa tujuan saya adalah tugas yang sulit untuk satu kelas atau yang lain, meskipun mungkin.
sumber
poor choice of loss function
daftar saya. Jadi, apakah Anda pikir ini benar bahkan untuk aturan penilaian yang tepat sebagai fungsi kerugian?Jawaban:
Sebuah entri dari Encyclopedia of Machine Learning ( https://cling.csd.uwo.ca/papers/cost_sensitive.pdf ) membantu menjelaskan bahwa apa yang disebut "masalah ketidakseimbangan kelas" lebih baik dipahami sebagai tiga masalah terpisah:
Para penulis menjelaskan:
Jadi, seperti yang disiratkan Murphy, tidak ada yang secara inheren bermasalah tentang penggunaan kelas yang tidak seimbang, asalkan Anda menghindari ketiga kesalahan ini. Model yang menghasilkan probabilitas posterior membuatnya lebih mudah untuk menghindari kesalahan (1) daripada melakukan model diskriminan seperti SVM karena mereka memungkinkan Anda untuk memisahkan inferensi dari pengambilan keputusan. (Lihat bagian 1.5.4. Keputusan dan Keputusan Bishop untuk pembahasan lebih lanjut tentang poin terakhir itu.)
Semoga itu bisa membantu.
sumber
Apa pun yang melibatkan optimisasi untuk meminimalkan fungsi kerugian akan, jika cukup cembung, memberikan solusi yang merupakan global minimum dari fungsi kerugian tersebut. Saya katakan 'cukup cembung' karena jaringan yang dalam tidak secara keseluruhan cembung, tetapi memberikan minimum yang wajar dalam praktik, dengan pilihan tingkat pembelajaran yang cermat dll.
Oleh karena itu, perilaku model tersebut ditentukan oleh apa pun yang kita masukkan ke dalam fungsi kerugian.
Sekarang, katakanlah kita memiliki fungsi kerugian yaitu:
Sepuluh kali lebih rendah dari kerugian saat menetapkan ambang batas seperti untuk menetapkan daya ingat dan presisi yang sama untuk setiap kelas.
Sebagai alternatif, kita dapat memodifikasi dataset dengan mengkloning setiap B contoh 99 kali, yang juga akan menyebabkan fungsi kerugian tidak lagi memiliki minimum pada posisi yang berbeda dari ambang ideal kita sebelumnya.
sumber
FP
TP
Perhatikan bahwa pengklasifikasi satu kelas tidak memiliki masalah ketidakseimbangan karena mereka melihat setiap kelas secara independen dari semua kelas lain dan mereka dapat mengatasi "tidak-kelas" dengan tidak memodelkan mereka. (Mereka mungkin memiliki masalah dengan ukuran sampel yang terlalu kecil, tentu saja).
Banyak masalah yang akan dimodelkan secara lebih tepat oleh pengklasifikasi satu kelas mengarah ke model yang tidak jelas ketika pendekatan dikriminatif digunakan, di mana "masalah ketidakseimbangan kelas" adalah satu gejala.
Sebagai contoh, perhatikan beberapa produk yang baik untuk dijual atau tidak. Situasi seperti itu biasanya ditandai dengan
Dengan demikian, kelas "baik" didefinisikan dengan baik sedangkan kelas "tidak baik" tidak jelas. Jika situasi seperti itu dimodelkan oleh pengelompokan diskriminatif, kami memiliki "masalah ketidakseimbangan" dua kali lipat: tidak hanya memiliki ukuran sampel kecil kelas "tidak-baik", tetapi juga memiliki kepadatan sampel yang lebih rendah (lebih sedikit sampel yang tersebar di seluruh sebagian besar ruang fitur).
Jenis "masalah ketidakseimbangan kelas" ini akan menghilang ketika tugas dimodelkan sebagai pengakuan satu kelas dari kelas "baik" yang didefinisikan dengan baik.
sumber