Saya mencoba meningkatkan gradien pada dataset dengan tingkat kejadian sekitar 1% menggunakan penambang Perusahaan, tetapi gagal menghasilkan output apa pun. Pertanyaan saya adalah, karena ini adalah pendekatan berbasis pohon keputusan, apakah itu benar untuk menggunakan meningkatkan gradien dengan kejadian rendah seperti itu?
boosting
unbalanced-classes
rare-events
gradient
pengguna2542275
sumber
sumber
Jawaban:
(Untuk memberikan jawaban singkat untuk ini :)
Tidak apa-apa menggunakan algoritma gradient boosting machine ketika berhadapan dengan dataset yang tidak seimbang. Ketika berhadapan dengan dataset yang sangat tidak seimbang, jauh lebih relevan untuk mempertanyakan kesesuaian metrik yang digunakan. Kita harus berpotensi menghindari metrik, seperti Akurasi atau Pemanggilan Kembali, yang didasarkan pada ambang batas arbitrer, dan memilih metrik, seperti penilaian AUCPR atau Brier, yang memberikan gambaran yang lebih akurat - lihat utas CV.SE yang bagus tentang: Mengapa keakuratan bukan pada ukuran terbaik untuk menilai model klasifikasi? untuk lebih). Demikian pula, kami dapat berpotensi menggunakan pendekatan sensitif biaya dengan menetapkan biaya kesalahan klasifikasi yang berbeda (mis. Lihat Masnadi-Shirazi & Vasconcelos (2011) Peningkatan Biaya yang Sensitifuntuk tampilan umum dan perubahan yang diusulkan untuk meningkatkan algoritma yang dikenal atau untuk aplikasi menarik tertentu dengan pendekatan yang lebih sederhana, periksa laporan tantangan Higgs Boson untuk algoritma XGBoost; Chen & He (2015) Higgs Boson Discovery dengan Boosted Trees memberikan rincian lebih lanjut).
Perlu juga dicatat bahwa jika kita menggunakan pengelompokan probabilistik (seperti GBM) kita dapat / harus secara aktif melihat ke dalam mengkalibrasi probabilitas yang dikembalikan (mis. Lihat Zadrozny & Elkan (2002) Mengubah skor pengelompokan menjadi perkiraan probabilitas multiklass yang akurat atau Kull et al. ( 2017) Beta calibration: peningkatan yang beralasan dan mudah diterapkan pada kalibrasi logistik untuk pengklasifikasi biner ) untuk berpotensi meningkatkan kinerja pelajar kita. Terutama ketika bekerja dengan data yang tidak seimbang secara memadai menangkap perubahan kecenderungan mungkin lebih informatif daripada hanya memberi label pada data. Sejauh itu, beberapa orang mungkin berpendapat bahwa pendekatan yang sensitif biaya pada akhirnya tidak menguntungkan (mis. Lihat Nikolaou et al. (2016)Algoritma peningkatan sensitif biaya: Apakah kita benar-benar membutuhkannya? ). Untuk menegaskan kembali poin awal, meningkatkan algoritma tidak buruk pada dasarnya untuk data yang tidak seimbang dan dalam kasus tertentu mereka dapat menawarkan opsi yang sangat kompetitif.
sumber