Saat ini saya menggunakan kotak peralatan RF di MATLAB untuk Masalah klasifikasi biner
Kumpulan Data: 50.000 sampel dan lebih dari 250 fitur
Jadi berapa jumlah pohon dan fitur yang dipilih secara acak pada setiap split untuk menumbuhkan pohon? dapatkah parameter lain sangat memengaruhi hasil?
Jumlah pohon semakin besar, semakin baik. Anda hampir tidak dapat melakukan overshoot dengan parameter ini, tetapi tentu saja batas atas tergantung pada waktu komputasi yang ingin Anda habiskan untuk RF.
Ide yang bagus adalah membuat hutan panjang terlebih dahulu dan kemudian melihat (saya harap ini tersedia dalam implementasi MATLAB) ketika akurasi OOB bertemu.
Jumlah atribut yang dicoba , defaultnya adalah akar kuadrat dari seluruh jumlah atribut, namun biasanya hutan tidak terlalu sensitif tentang nilai parameter ini - bahkan jarang dioptimalkan, terutama karena aspek stokastik RF dapat memperkenalkan variasi yang lebih besar.
sumber
Jumlah pohon semakin besar, semakin baik: disepakati.
Jumlah atribut yang dicoba akan tergantung. Jika Anda sudah memiliki beberapa apriori tentang cara penyebaran informasi atau tidak di antara fitur-fiturnya. Jika informasi tersebut dibagikan oleh banyak fitur, hasil yang lebih baik akan muncul dengan nilai parameter yang lebih kecil. Sementara, di sisi lain, jika hanya beberapa fitur yang membawa informasi, Anda harus menggunakan nilai yang lebih besar. Dengan kata lain, dengan banyak variabel yang relevan: nilai yang lebih kecil lebih baik dan dengan banyak variabel yang tidak relevan: nilai yang lebih besar lebih baik.
sumber