Apakah ada strategi untuk memilih jumlah pohon dalam GBM? Secara khusus, ntrees
argumen dalam R
's gbm
fungsi.
Saya tidak mengerti mengapa Anda tidak harus menetapkan ntrees
nilai wajar tertinggi. Saya perhatikan bahwa jumlah pohon yang lebih besar jelas mengurangi variabilitas hasil dari beberapa GBM. Saya tidak berpikir bahwa jumlah pohon yang tinggi akan menyebabkan overfitting.
Adakah pikiran?
sumber
Ini adalah panduan untuk meningkatkan pohon regresi dari Elith et al .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Sangat membantu!
Anda setidaknya harus menggunakan 1000 pohon. Sejauh yang saya mengerti, Anda harus menggunakan kombinasi tingkat belajar, kompleksitas pohon dan jumlah pohon yang mencapai kesalahan prediksi minumum. Nilai yang lebih kecil dari tingkat pembelajaran menyebabkan risiko pelatihan yang lebih besar untuk jumlah iterasi yang sama, sementara setiap iterasi mengurangi risiko pelatihan. Jika jumlah pohon cukup besar, risikonya dapat dibuat kecil semaunya (lihat: Hastie et al., 2001, "Elemen Pembelajaran Statistik, Penambangan Data, Inferensi dan Prediksi" ).
sumber
Seperti biasa dalam beberapa algoritma pembelajaran mesin, Meningkatkan tunduk pada pertukaran Bias-varians mengenai jumlah pohon. Secara longgar, trade-off ini memberi tahu Anda bahwa: (i) model lemah cenderung memiliki bias tinggi dan varians rendah: mereka terlalu kaku untuk menangkap variabilitas dalam set data pelatihan, sehingga tidak akan berkinerja baik di set tes baik (tes tinggi kesalahan) (ii) model yang sangat kuat cenderung memiliki bias rendah dan varians tinggi: mereka terlalu fleksibel dan mereka mengalahkan set pelatihan, sehingga dalam set tes (karena titik data berbeda dari set pelatihan) mereka juga tidak akan berkinerja baik (kesalahan uji tinggi)
Konsep Boosting tree adalah memulai dengan pohon dangkal (model lemah) dan terus menambahkan lebih banyak pohon dangkal yang mencoba untuk memperbaiki kelemahan pohon sebelumnya. Saat Anda melakukan proses ini, kesalahan pengujian cenderung turun (karena model keseluruhan menjadi lebih fleksibel / kuat). Namun, jika Anda menambahkan terlalu banyak dari pohon-pohon itu, Anda mulai overfitting data pelatihan dan karenanya kesalahan pengujian meningkat. Validasi silang membantu menemukan sweet spot
sumber