Metode ensemble (seperti hutan acak) memerlukan beberapa elemen variasi dalam kumpulan data tempat pengklasifikasi basis individu dikembangkan (jika tidak, hutan acak akan berakhir dengan hutan pohon yang terlalu mirip). Karena pohon keputusan sangat sensitif terhadap pengamatan dalam set pelatihan, memvariasikan pengamatan (menggunakan bootstrap), saya kira, merupakan pendekatan alami untuk mendapatkan keragaman yang diperlukan. Alternatif yang jelas adalah memvariasikan fitur yang digunakan, misalnya melatih setiap pohon pada subset dari fitur asli. Menggunakan sampel bootstrap juga memungkinkan kami untuk memperkirakan tingkat kesalahan out-of-bag (OOB) dan pentingnya variabel.
2 pada dasarnya adalah cara lain untuk menyuntikkan keacakan ke dalam hutan. Ini juga berdampak pada pengurangan korelasi di antara pohon-pohon (dengan menggunakan nilai produksi rendah), dengan trade-off (berpotensi) memperburuk daya prediksi. Menggunakan nilai mtry yang terlalu besar akan menyebabkan pohon menjadi semakin mirip satu sama lain (dan pada akhirnya Anda berakhir dengan mengantongi)
Saya percaya bahwa alasan untuk tidak memangkas lebih karena fakta bahwa itu tidak perlu daripada yang lain. Dengan satu pohon keputusan Anda biasanya akan memangkasnya karena sangat rentan terhadap overfitting. Namun, dengan menggunakan sampel bootstrap dan menumbuhkan banyak pohon, hutan acak dapat menumbuhkan pohon yang kuat secara individual, tetapi tidak saling berkorelasi satu sama lain. Pada dasarnya, masing-masing pohon overfit tetapi asalkan kesalahannya tidak berkorelasi, hutan harus cukup akurat.
Alasan kerjanya dengan baik mirip dengan teorema juri Condorcet (dan logika di balik metode seperti meningkatkan). Pada dasarnya Anda memiliki banyak pelajar yang lemah yang hanya perlu melakukan sedikit lebih baik daripada menebak secara acak. Jika ini benar, Anda dapat terus menambahkan peserta didik yang lemah, dan dalam batas tersebut Anda akan mendapatkan prediksi sempurna dari ansambel Anda. Jelas ini dibatasi karena kesalahan peserta didik menjadi berkorelasi, yang mencegah peningkatan kinerja ansambel.