Mengapa pemangkasan tidak diperlukan untuk pohon hutan acak?

20

Breiman mengatakan bahwa pohon-pohon ditanam tanpa pemangkasan. Mengapa? Maksud saya mengatakan bahwa harus ada alasan kuat mengapa pohon-pohon di hutan acak tidak dipangkas. Di sisi lain itu dianggap sangat penting untuk memangkas pohon keputusan tunggal untuk menghindari pas. Apakah ada bacaan yang tersedia untuk dibaca karena alasan ini? Tentu saja pohon mungkin tidak berkorelasi tetapi masih ada kemungkinan terlalu pas.

Z Khan
sumber
Anda benar-benar perlu mengatakan lebih banyak tentang konteksnya di sini. @ ChrisA. telah melakukan upaya yang penting, tetapi sulit untuk mengetahui apakah pertanyaan Anda benar-benar dijawab, karena sulit untuk mengetahui banyak tentang kesulitan Anda.
gung - Reinstate Monica
2
Apa lagi yang perlu dikatakan? Pertanyaannya sangat jelas.
Seanosapien

Jawaban:

20

Secara kasar, beberapa potensi over-fitting yang mungkin terjadi dalam satu pohon (yang merupakan alasan Anda melakukan pemangkasan umumnya) dimitigasi oleh dua hal di Hutan Acak:

  1. Fakta bahwa sampel yang digunakan untuk melatih masing-masing pohon "bootstrap".
  2. Fakta bahwa Anda memiliki banyak pohon acak menggunakan fitur acak dan karenanya masing-masing pohon kuat tetapi tidak begitu berkorelasi satu sama lain.

Sunting: berdasarkan komentar OP di bawah ini:

Pasti masih ada potensi untuk over-fitting. Sejauh artikel, Anda dapat membaca tentang motivasi untuk "mengantongi" oleh Breiman dan "bootstrap" secara umum oleh Efron dan Tibshirani. Sejauh 2., Brieman memperoleh batasan longgar pada kesalahan generalisasi yang terkait dengan kekuatan pohon dan anti-korelasi dari masing-masing pengklasifikasi. Tidak ada yang menggunakan batasan (kemungkinan besar) tetapi ini dimaksudkan untuk memberikan intuisi tentang apa yang membantu kesalahan generalisasi rendah dalam metode ensemble. Ini ada di kertas Random Forests sendiri. Posting saya adalah untuk mendorong Anda ke arah yang benar berdasarkan pembacaan ini dan pengalaman / deduksi saya.

  • Breiman, L., Prediktor Bagging, Pembelajaran Mesin, 24 (2), hal.123-140, 1996.
  • Efron, B .; Tibshirani, R. (1993). Pengantar Bootstrap. Boca Raton, FL
  • Breiman, Leo (2001). "Hutan Acak". Pembelajaran Mesin 45 (1): 5–32.
Chris A.
sumber
Namun masih ada kemungkinan overfitting. Bisakah Anda mengutip artikel untuk dibaca?
Z Khan
@Z Khan Apakah Anda juga Z Khan ? Jika demikian, beri tahu kami agar kami dapat menggabungkan akun Anda.
whuber
3
@ZKhan Masalah overfitting di RF dicakup dalam Hastie et al, (2009) Elemen Pembelajaran Statistik, Edisi ke-2 . Ada PDF gratis yang tersedia di situs web untuk buku itu. Lihatlah bab tentang hutan acak.
Pasang kembali Monica - G. Simpson