Apakah meningkatkan gradien sesuai untuk data dengan tingkat kejadian rendah seperti 1%?

14

Saya mencoba meningkatkan gradien pada dataset dengan tingkat kejadian sekitar 1% menggunakan penambang Perusahaan, tetapi gagal menghasilkan output apa pun. Pertanyaan saya adalah, karena ini adalah pendekatan berbasis pohon keputusan, apakah itu benar untuk menggunakan meningkatkan gradien dengan kejadian rendah seperti itu?

pengguna2542275
sumber
3
Anda berhadapan dengan dataset yang tidak seimbang. Meningkatkan memang cara yang bagus untuk mengatasinya. Untuk jelasnya lihat stats.stackexchange.com/questions/157940/...
Dal
Tetapi bagi saya regresi logistik memberikan hasil yang lebih baik daripada meningkatkan hutan secara acak atau gradien. Saya ingin meningkatkan kinerja model saya, dengan mencoba pohon-pohon yang dikuatkan.
user2542275
Meningkatkan didasarkan pada pengklasifikasi lemah. Secara teoritis, pengelompokan lemah apa pun yang sedikit lebih baik daripada acak akan dilakukan. Dalam praktiknya, algoritma yang berbeda lebih cocok untuk beberapa kumpulan data sehingga pengelompokan lemah yang Anda pilih penting. Bisakah Anda menentukan lebih lanjut tentang algoritma yang Anda gunakan, hasilnya dan kumpulan data?
DaL
Baik. Tentang dataset: Ukuran sampel> 4m, laju acara = 1,2%. Jumlah prediktor yang signifikan p-value <0,05 adalah 150. Regresi logistik dengan variabel paling signifikan memberikan peningkatan 3 pada populasi 20%. Jaringan saraf memberi lift sekitar 2,8. Peningkatan gradien tidak menghasilkan output apa pun, sampai saya menggunakan pengambilan sampel bertingkat dengan bobot terbalik sebelumnya. Tetapi kinerjanya buruk.
user2542275
Karena kumpulan data Anda cukup besar, Anda harus memiliki sampel kelas minoritas yang cukup, sehingga masalahnya adalah karena ketidakseimbangan relatif. Anda memiliki beberapa fitur tetapi tidak terlalu banyak, tetapi pohon keputusan memang kurang cocok untuk dataset tersebut. Saya menyarankan Anda untuk membuat dataset yang seimbang dan melihat seberapa baik algoritma Anda melakukannya. Daripada Anda akan dapat menerapkan algoritma pada dataset asli seperti yang saya jelaskan di komentar pertama.
DaL

Jawaban:

7

(Untuk memberikan jawaban singkat untuk ini :)

Tidak apa-apa menggunakan algoritma gradient boosting machine ketika berhadapan dengan dataset yang tidak seimbang. Ketika berhadapan dengan dataset yang sangat tidak seimbang, jauh lebih relevan untuk mempertanyakan kesesuaian metrik yang digunakan. Kita harus berpotensi menghindari metrik, seperti Akurasi atau Pemanggilan Kembali, yang didasarkan pada ambang batas arbitrer, dan memilih metrik, seperti penilaian AUCPR atau Brier, yang memberikan gambaran yang lebih akurat - lihat utas CV.SE yang bagus tentang: Mengapa keakuratan bukan pada ukuran terbaik untuk menilai model klasifikasi? untuk lebih). Demikian pula, kami dapat berpotensi menggunakan pendekatan sensitif biaya dengan menetapkan biaya kesalahan klasifikasi yang berbeda (mis. Lihat Masnadi-Shirazi & Vasconcelos (2011) Peningkatan Biaya yang Sensitifuntuk tampilan umum dan perubahan yang diusulkan untuk meningkatkan algoritma yang dikenal atau untuk aplikasi menarik tertentu dengan pendekatan yang lebih sederhana, periksa laporan tantangan Higgs Boson untuk algoritma XGBoost; Chen & He (2015) Higgs Boson Discovery dengan Boosted Trees memberikan rincian lebih lanjut).

Perlu juga dicatat bahwa jika kita menggunakan pengelompokan probabilistik (seperti GBM) kita dapat / harus secara aktif melihat ke dalam mengkalibrasi probabilitas yang dikembalikan (mis. Lihat Zadrozny & Elkan (2002) Mengubah skor pengelompokan menjadi perkiraan probabilitas multiklass yang akurat atau Kull et al. ( 2017) Beta calibration: peningkatan yang beralasan dan mudah diterapkan pada kalibrasi logistik untuk pengklasifikasi biner ) untuk berpotensi meningkatkan kinerja pelajar kita. Terutama ketika bekerja dengan data yang tidak seimbang secara memadai menangkap perubahan kecenderungan mungkin lebih informatif daripada hanya memberi label pada data. Sejauh itu, beberapa orang mungkin berpendapat bahwa pendekatan yang sensitif biaya pada akhirnya tidak menguntungkan (mis. Lihat Nikolaou et al. (2016)Algoritma peningkatan sensitif biaya: Apakah kita benar-benar membutuhkannya? ). Untuk menegaskan kembali poin awal, meningkatkan algoritma tidak buruk pada dasarnya untuk data yang tidak seimbang dan dalam kasus tertentu mereka dapat menawarkan opsi yang sangat kompetitif.

usεr11852
sumber
Saya percaya penilaian Brier setara dengan ukuran Akurasi sehingga akan memiliki batasan yang sama dengan Akurasi ketika menilai model peristiwa langka.
RobertF
Skor Brier tidak setara dengan Akurasi. Harap dicatat bahwa kami menggunakan probabilitas yang diprediksi untuk perhitungan skor Brier sementara untuk perhitungan Akurasi kami menggunakan label berdasarkan ambang keras dari probabilitas yang diprediksi.
usεr11852
Terima kasih telah mengklarifikasi - menggunakan perkiraan probabilitas daripada 0/1 untuk kelas prediksi lebih masuk akal.
RobertF
Keren. Saya senang kami menyelesaikannya! :)
usεr11852