Saya sedang membaca materi yang terkait dengan XGBoost. Tampaknya metode ini tidak memerlukan penskalaan variabel karena didasarkan pada pohon dan yang satu ini dapat menangkap pola non-linearitas kompleks, interaksi. Dan itu dapat menangani variabel numerik dan kategoris dan juga tampaknya bahwa variabel redundan tidak terlalu mempengaruhi metode ini.
Biasanya, dalam pemodelan prediktif, Anda dapat melakukan beberapa pilihan di antara semua fitur yang Anda miliki dan Anda juga dapat membuat beberapa fitur baru dari serangkaian fitur yang Anda miliki. Jadi pilih subset fitur berarti Anda berpikir ada beberapa redundansi di set fitur Anda; membuat beberapa fitur baru dari set fitur saat ini berarti Anda melakukan beberapa transformasi fungsional pada fitur Anda saat ini. Kemudian, kedua poin ini harus dibahas dalam XGBoost. Lalu, apakah itu berarti bahwa untuk menggunakan XGBoost, Anda hanya perlu memilih parameter tunning itu dengan bijak? Apa nilai melakukan rekayasa fitur menggunakan XGBoost?
sumber
Jawaban:
Mari kita definisikan dulu Rekayasa Fitur:
XGBoost melakukan (1) untuk Anda. XGBoost tidak melakukan (2) / (3) untuk Anda.
Jadi, Anda masih harus melakukan rekayasa fitur sendiri. Hanya model pembelajaran yang mendalam yang dapat menggantikan ekstraksi fitur untuk Anda.
sumber
sumber
Kinerja mungkin?
(Catatan kami tidak menggunakan XGBoost, tetapi gradient boost library lainnya - meskipun kinerja XGBoost mungkin juga tergantung pada dimensi data dalam beberapa cara.)
Kami memiliki dataset di mana setiap item terdiri dari 3 sinyal, masing-masing panjangnya 6.000 sampel - fitur 18k. Menggunakan fitur-fitur ini secara langsung membutuhkan waktu (hari), jadi kami melakukan beberapa rekayasa fitur manual untuk mengurangi jumlah fitur menjadi sekitar 200. Sekarang pelatihan (termasuk penyetelan parameter) adalah masalah beberapa jam.
Sebagai perbandingan: beberapa waktu yang lalu kami juga mulai melatih ConvNets dengan data yang sama dan seluruh fitur 18k (tanpa rekayasa fitur). Mereka mencapai akurasi yang sama dengan model peningkatan gradien setelah hanya sekitar 2 jam pelatihan.
sumber
Ini mungkin jawaban terbaik untuk pertanyaan Anda dari orang-orang yang menggunakan xgboost dan susun terlalu banyak: http://blog.kaggle.com/2017/03/17/outbrain-click-prediction-competition-winners-interview-2nd -place-team-brain-afk-darragh-marios-mathias-alexey /
sumber