Saya menyadari bahwa ada 3 parameter penyetelan dalam model meningkatkan pohon, yaitu
- jumlah pohon (jumlah iterasi)
- parameter penyusutan
- jumlah pemisahan (ukuran masing-masing pohon penyusun)
Pertanyaan saya adalah: untuk setiap parameter penyetelan, bagaimana saya harus menemukan nilai optimalnya? Dan metode apa?
Perhatikan bahwa: parameter susut dan jumlah parameter pohon beroperasi bersama, yaitu nilai yang lebih kecil untuk parameter penyusutan mengarah ke nilai yang lebih tinggi untuk jumlah pohon. Dan kita perlu memperhitungkan ini juga.
Saya sangat tertarik pada metode untuk menemukan nilai optimal untuk jumlah split. Haruskah itu didasarkan pada validasi silang atau pengetahuan domain tentang model di belakang?
Dan bagaimana hal-hal ini dilakukan dalam gbm
paket di R?
Ada dua sumber yang baik untuk paket pohon regresi dan gbm yang dikuatkan. Untuk penjelasan tentang BRT dan optimalisasi jumlah pohon (
nt
), tingkat pembelajaran (lr
) dan kompleksitas pohon (tc
) lihat Panduan kerja untuk meningkatkan pohon regresi Meskipun berfokus pada ekologi, saya pikir Anda tidak akan menemukan pengantar yang lebih baik untuk BRT .Untuk implementasi BRT dalam paket gbm, lihat Boosted Regression Trees untuk pemodelan ekologis
Singkatnya, aturan praktisnya adalah memilih tingkat pembelajaran yang memungkinkan model BRT untuk memenuhi setidaknya 1000 pohon, jadi mungkin Anda akan membutuhkan tingkat pembelajaran yang rendah, mungkin 0,001 untuk mencapai itu. Tapi itu tergantung pada ukuran data Anda, lihat gambar. 2 dan 3 dalam Panduan kerja untuk BRT. Saya pikir salah satu cara yang mungkin adalah mengatur model yang berbeda di BRT sesuai dengan ukuran data Anda, misalnya menggabungkan lr berbeda (0,1, 0,01, 0,001), tc (1, 3, 5, 7, 9, 20) dengan tas yang berbeda .fractions (0,5, 0,7, 0,9) dan pilih yang terbaik sesuai dengan penyimpangan terendah atau skor ROC tertinggi. Mungkin itu membantu.
sumber
BRT_MODEL$self.statistics$correlation[[1]]
adalah korelasi pengujian dengan data pelatihan, yang merupakan metrik tes yang baik.