XGBoost dapat menangani data yang hilang pada fase perkiraan

11

Baru-baru ini saya telah meninjau algoritma XGBoost dan saya perhatikan bahwa algoritma ini dapat menangani data yang hilang (tanpa memerlukan imputasi) dalam fase pelatihan. Saya bertanya-tanya apakah XGboost dapat menangani data yang hilang (tanpa memerlukan imputasi) ketika digunakan untuk meramalkan pengamatan baru atau perlu untuk menyalahkan data yang hilang.

Terima kasih sebelumnya.

Ricardo UES
sumber

Jawaban:

14

xgboost memutuskan pada waktu pelatihan apakah nilai yang hilang masuk ke simpul kanan atau kiri. Ia memilih mana untuk meminimalkan kerugian. Jika tidak ada nilai yang hilang pada waktu pelatihan, itu default untuk mengirim kesalahan baru ke simpul kanan.

Jika ada sinyal dalam distribusi kesalahan Anda, maka ini pada dasarnya sesuai dengan model.

Hati-hati jika data skor Anda memiliki nilai yang hilang didistribusikan secara berbeda dari data pelatihan Anda. Penanganan xgboost yang hilang nyaman tetapi tidak melindungi dari masking.

Sumber: jawaban ini

Dex Groves
sumber