Pemahaman saya adalah picks hutan random acak mtry variabel untuk membangun setiap pohon keputusan. Jadi jika mtry = ncol / 3 maka masing-masing variabel akan digunakan rata-rata di 1/3 dari pohon. Dan 2/3 pohon tidak akan menggunakannya.
Tetapi bagaimana jika saya tahu bahwa satu variabel mungkin sangat penting, apakah lebih baik secara manual meningkatkan kemungkinan bahwa variabel ini diambil di setiap pohon? Apakah layak dengan paket randomForest di R?
sumber
Sejak Juni 2015, algoritma RF baru yang menjanjikan pada R-CRAN yang disebut 'ranger' memiliki fitur ini. Diubah dengan, split.select.weights : "Vektor numerik dengan bobot antara 0 dan 1, mewakili probabilitas untuk memilih variabel yang akan dipisahkan."
sumber