Mengapa pohon kantong / pohon hutan acak memiliki bias yang lebih tinggi daripada pohon keputusan tunggal?

11

Jika kita mempertimbangkan pohon keputusan yang tumbuh penuh (yaitu pohon keputusan yang tidak ditandai), ia memiliki varian yang tinggi dan bias yang rendah.

Hutan Bagging dan Random menggunakan model varians tinggi ini dan menggabungkannya untuk mengurangi varians dan dengan demikian meningkatkan akurasi prediksi. Baik Hutan Bagging dan Acak menggunakan sampling Bootstrap, dan seperti yang dijelaskan dalam "Elemen Pembelajaran Statistik", ini meningkatkan bias pada pohon tunggal.

Lebih lanjut, karena metode Hutan Acak membatasi variabel yang dibiarkan terpecah di setiap simpul, bias untuk satu pohon hutan acak semakin meningkat.

Dengan demikian, akurasi prediksi hanya meningkat, jika peningkatan bias pohon tunggal di Bagging dan Random Forests tidak "melampaui" pengurangan varians.

Ini membawa saya ke dua pertanyaan berikut: 1) Saya tahu bahwa dengan bootstrap sampling, kita akan (hampir selalu) memiliki beberapa pengamatan yang sama dalam sampel bootstrap. Tetapi mengapa ini menyebabkan peningkatan bias masing-masing pohon di Bagging / Random Forests? 2) Selanjutnya, mengapa batas pada variabel yang tersedia untuk dipecah pada setiap pemisahan menyebabkan bias yang lebih tinggi pada masing-masing pohon di Hutan Acak?

C. Refsgaard
sumber

Jawaban:

5

Saya akan menerima jawaban pada 1) dari Kunlun, tetapi hanya untuk menutup kasus ini, saya di sini akan memberikan kesimpulan pada dua pertanyaan yang saya capai dalam tesis saya (yang keduanya diterima oleh Supervisor saya):

1) Semakin banyak data menghasilkan model yang lebih baik, dan karena kami hanya menggunakan sebagian dari seluruh data pelatihan untuk melatih model (bootstrap), bias yang lebih tinggi terjadi di setiap pohon (Salin dari jawaban oleh Kunlun)

2) Dalam algoritma Hutan Acak, kami membatasi jumlah variabel untuk dipecah pada setiap pemisahan - yaitu kami membatasi jumlah variabel untuk menjelaskan data kami. Sekali lagi, bias yang lebih tinggi terjadi pada setiap pohon.

Kesimpulan: Kedua situasi adalah masalah membatasi kemampuan kita untuk menjelaskan populasi: Pertama kita membatasi jumlah pengamatan, kemudian kita membatasi jumlah variabel untuk dibagi dalam setiap pemisahan. Kedua keterbatasan mengarah pada bias yang lebih tinggi di setiap pohon, tetapi seringkali pengurangan varians dalam model melampaui peningkatan bias di setiap pohon, dan dengan demikian Hutan Bagging dan Random cenderung menghasilkan model yang lebih baik daripada hanya pohon keputusan tunggal.

C. Refsgaard
sumber
-1

Pertanyaan Anda cukup mudah. 1) Semakin banyak data menghasilkan model yang lebih baik, karena Anda hanya menggunakan sebagian dari seluruh data pelatihan untuk melatih model Anda (bootstrap), bias yang lebih tinggi adalah wajar. 2) Lebih banyak pemisahan berarti pohon yang lebih dalam, atau simpul yang lebih murni. Ini biasanya mengarah ke varian tinggi dan bias rendah. Jika Anda membatasi pemisahan, varians yang lebih rendah dan bias yang lebih tinggi.

Kunlun
sumber
4
Saya tidak cukup membeli argumen untuk 1), karena setiap sampel bootstrap sama-sama mungkin, dan bias tentang perilaku model rata-rata. Sepertinya itu harus lebih halus dari itu. Saya juga tidak berpikir 2) menjawab pertanyaan yang diajukan. Poster tidak berarti "batas pemisahan" seperti dalam "menumbuhkan pohon dangkal".
Matthew Drury