Apa yang dimaksud dengan “ukuran simpul” di Hutan Acak?

20

Saya tidak mengerti persis apa yang dimaksud dengan ukuran simpul. Saya tahu apa itu simpul keputusan, tetapi bukan apa ukuran simpul itu.

wolfsatthedoor
sumber

Jawaban:

24

Pohon keputusan bekerja dengan partisi rekursif dari set pelatihan. Setiap node dari pohon keputusan dikaitkan dengan satu set titik data dari set pelatihan:tnt

n_t adalah ukuran setiap node

Anda mungkin menemukan parameter nodesizedi beberapa paket forest acak, misalnya R : Ini adalah ukuran simpul minimum , dalam contoh di atas ukuran simpul minimum adalah 10. Parameter ini secara implisit menentukan kedalaman pohon Anda.

nodesize dari paket R random forest

Ukuran minimum terminal node. Menetapkan jumlah ini lebih besar menyebabkan pohon yang lebih kecil tumbuh (dan karenanya membutuhkan waktu lebih sedikit). Perhatikan bahwa nilai default berbeda untuk klasifikasi (1) dan regresi (5).

Dalam paket lain Anda langsung menemukan parameter depth, misalnya WEKA :

-depth dari paket hutan acak WEKA

Kedalaman maksimum pohon, 0 untuk tidak terbatas. (default 0)

Simone
sumber
1
Apa itu 'catatan'? Apakah maksud Anda titik data? Mengapa setiap node dikaitkan dengan satu set catatan? Saya mengerti hutan acak cukup baik, tapi saya tidak tahu apa artinya jargon.
wolfsatthedoor atau
Ya, maksud saya adalah titik data. Biasanya Anda dapat merujuk ke titik data sebagai catatan, contoh, atau contoh.
Simone
Jadi apakah ada aturan ukuran simpul minimum untuk menghindari pohon yang terlalu cocok? Saya membayangkan itu tergantung pada ukuran data pelatihan jadi mungkin proporsi tertentu dari ukuran dataset?
Seanosapien
1
Di hutan acak, pohon sepenuhnya tumbuh: ukuran simpul adalah 1. Overfitting dihindari menumbuhkan banyak pohon. Di pohon keputusan itu lebih rumit. Pohon belum sepenuhnya tumbuh dan Anda harus melakukan pemangkasan untuk menghindari overfitting.
Simone
1
Sepertinya menampi adalah semacam pemilihan fitur untuk menyederhanakan pohon dan menghindari overfitting. Saya kira pemangkasan satu pohon selalu bermanfaat. Sebaliknya, menampi terkadang dapat mengurangi akurasi tetapi menyederhanakan pohon.
Simone
2

Tidak jelas apakah nodesize berada pada sampling "in-bag" atau kesalahan "out-of-bag". Jika ada pada pengambilan sampel "out-of-bag", itu sedikit lebih ketat.

Kesatria Kegelapan
sumber