Definisi kerumitan pohon di xgboost

Melakukan penelitian tentang algoritma xgboost saya membaca dokumentasi .

Dalam pendekatan ini, pohon diatur menggunakan definisi kompleksitas mana dan adalah parameter, adalah jumlah daun terminal dan adalah skor di setiap daun.

Ω (f) = γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}

$\Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2$

γ

$\gamma$

λ

$\lambda$

T

$T$

w_{j}

$w_j$

Saya bertanya-tanya: bagaimana ini mendefinisikan kompleksitas? , jumlah node terminal, tampak alami bagi saya. Tetapi jumlah skor akhir kuadrat? $T$

Mungkin overfitting yang dimaksud. Berarti skor yang sangat besar memberi terlalu banyak kepercayaan diri? Apakah itu dipilih untuk mendapatkan pembelajar yang lemah? Apa penjelasan alami untuk pilihan fungsi kompleksitas ini?

cart regularization boosting gradient-descent overfitting Ric
sumber

Ini masuk akal bagi saya.

Saya akan fokus pada kasus Gaussian. Di sini setiap pohon sesuai dengan residu dari model saat ini, dan pembaruan model adalah . Gagasan penguat gradien adalah untuk secara hati-hati dan perlahan mengurangi bias model dengan menambahkan pohon-pohon ini satu per satu. $T_i$ $M_{i+1} = M_{i} + \alpha T_i$

Dalam hal ini, nilai besar akan sesuai dengan simpul terminal (daun) yang memberikan pembaruan yang sangat besar dan signifikan untuk model sebelumnya. Gagasan istilah regularisasi adalah untuk meminimalkan insiden pembaruan pohon tunggal besar ini (hanya memungkinkan mereka jika penurunan fungsi kehilangan model cukup besar untuk mengimbangi penalti regularisasi). Jika pembaruan semacam itu diatur secara terpisah untuk satu pohon, tetapi ternyata dapat dibenarkan, pembaruan tersebut akan dibakar dalam beberapa pembaruan model, sesuai dengan filosofi peningkatan. $w_i$

Ini analogi yang sangat dekat dengan regresi ridge.

Matthew Drury
sumber

Terima kasih, dengan demikian Anda berpikir tentang hal yang sama seperti yang saya lakukan ketika saya berbicara tentang pelajar yang lemah ... Lemah dalam arti jika tidak mengambil langkah yang terlalu besar ..

Ric

Bisakah Anda lebih spesifik untuk apa "kasus Gaussian"? cocok dengan campuran Gaussians?

Haitao Du

@ hxd1011 Saya hanya berarti bahwa kita menggunakan jumlah kerugian kesalahan kuadrat, alias log-kemungkinan distribusi gaussian. Poin utama adalah bahwa di sini Anda dapat menganggap Anda hanya cocok dengan residu.

Matthew Drury

@MatthewDrury dapatkah Anda melihat pertanyaan terkait ini? Terima kasih!! stats.stackexchange.com/questions/229599/...

Haitao Du

Definisi kerumitan pohon di xgboost

Jawaban: