Jika kita mempertimbangkan pohon keputusan yang tumbuh penuh (yaitu pohon keputusan yang tidak ditandai), ia memiliki varian yang tinggi dan bias yang rendah.
Hutan Bagging dan Random menggunakan model varians tinggi ini dan menggabungkannya untuk mengurangi varians dan dengan demikian meningkatkan akurasi prediksi. Baik Hutan Bagging dan Acak menggunakan sampling Bootstrap, dan seperti yang dijelaskan dalam "Elemen Pembelajaran Statistik", ini meningkatkan bias pada pohon tunggal.
Lebih lanjut, karena metode Hutan Acak membatasi variabel yang dibiarkan terpecah di setiap simpul, bias untuk satu pohon hutan acak semakin meningkat.
Dengan demikian, akurasi prediksi hanya meningkat, jika peningkatan bias pohon tunggal di Bagging dan Random Forests tidak "melampaui" pengurangan varians.
Ini membawa saya ke dua pertanyaan berikut: 1) Saya tahu bahwa dengan bootstrap sampling, kita akan (hampir selalu) memiliki beberapa pengamatan yang sama dalam sampel bootstrap. Tetapi mengapa ini menyebabkan peningkatan bias masing-masing pohon di Bagging / Random Forests? 2) Selanjutnya, mengapa batas pada variabel yang tersedia untuk dipecah pada setiap pemisahan menyebabkan bias yang lebih tinggi pada masing-masing pohon di Hutan Acak?