Apa yang harus menjadi parameter optimal untuk pengelompokan Acak Hutan?

14

Saat ini saya menggunakan kotak peralatan RF di MATLAB untuk Masalah klasifikasi biner

Kumpulan Data: 50.000 sampel dan lebih dari 250 fitur

Jadi berapa jumlah pohon dan fitur yang dipilih secara acak pada setiap split untuk menumbuhkan pohon? dapatkah parameter lain sangat memengaruhi hasil?

Rizwan
sumber

Jawaban:

8

Pilih sejumlah besar pohon, katakan 100. Dari apa yang saya baca di Internet, pilih fitur yang dipilih secara acak. Namun, dalammakalah aslinya, Breiman menggunakan bilangan bulat terdekat untuk mencatat M250 .logMlog2

Saya akan mengatakan validasi silang biasanya merupakan kunci untuk menemukan parameter optimal, tetapi saya tidak cukup tahu tentang hutan acak.

Wok
sumber
1+log2M
Terima kasih, saya telah memperbarui tautannya. Sekarang, langsung ke Berkeley.
Wok
12

Jumlah pohon semakin besar, semakin baik. Anda hampir tidak dapat melakukan overshoot dengan parameter ini, tetapi tentu saja batas atas tergantung pada waktu komputasi yang ingin Anda habiskan untuk RF.
Ide yang bagus adalah membuat hutan panjang terlebih dahulu dan kemudian melihat (saya harap ini tersedia dalam implementasi MATLAB) ketika akurasi OOB bertemu.

Jumlah atribut yang dicoba , defaultnya adalah akar kuadrat dari seluruh jumlah atribut, namun biasanya hutan tidak terlalu sensitif tentang nilai parameter ini - bahkan jarang dioptimalkan, terutama karena aspek stokastik RF dapat memperkenalkan variasi yang lebih besar.


sumber
7

Jumlah pohon semakin besar, semakin baik: disepakati.

Jumlah atribut yang dicoba akan tergantung. Jika Anda sudah memiliki beberapa apriori tentang cara penyebaran informasi atau tidak di antara fitur-fiturnya. Jika informasi tersebut dibagikan oleh banyak fitur, hasil yang lebih baik akan muncul dengan nilai parameter yang lebih kecil. Sementara, di sisi lain, jika hanya beberapa fitur yang membawa informasi, Anda harus menggunakan nilai yang lebih besar. Dengan kata lain, dengan banyak variabel yang relevan: nilai yang lebih kecil lebih baik dan dengan banyak variabel yang tidak relevan: nilai yang lebih besar lebih baik.

0asa
sumber
1
Sementara klaim Anda tentang jumlah atribut yang dicoba masuk akal, apakah Anda memiliki kutipan untuk ini?
James Owers
Saya akan merekomendasikan membaca tesis ini: github.com/glouppe/phd- tesis serta yang ini: orbi.ulg.ac.be/handle/2268/25737
0asa