Dari tutorial XGBoost, saya pikir ketika setiap pohon tumbuh, semua variabel dipindai untuk dipilih untuk membagi node, dan yang dengan pembagian gain maksimum akan dipilih. Jadi pertanyaan saya adalah bagaimana jika saya menambahkan beberapa variabel derau ke dalam kumpulan data, akankah variabel derau ini mempengaruhi pemilihan variabel (untuk setiap pohon yang tumbuh)? Logika saya adalah karena variabel-variabel noise ini TIDAK memberikan pembagian keuntungan maksimum sama sekali, maka mereka tidak akan pernah dipilih sehingga mereka tidak mempengaruhi pertumbuhan pohon.
Jika jawabannya adalah ya, apakah benar bahwa "semakin banyak variabel semakin baik untuk XGBoost"? Jangan mempertimbangkan waktu pelatihan.
Juga, jika jawabannya adalah ya, maka apakah benar bahwa "kita tidak perlu menyaring variabel yang tidak penting dari model".
Terima kasih!
sumber