Haruskah pemangkasan dihindari karena mengantongi (dengan pohon keputusan)?

8

Saya datang dengan beberapa posting dan surat-surat yang menyatakan bahwa pemangkasan pohon dalam ansambel "mengantongi" pohon tidak diperlukan (lihat 1 ).

Namun, apakah perlu (atau setidaknya dalam beberapa kasus yang diketahui) merusak untuk melakukan pemangkasan (misalnya, dengan sampel OOB) pada masing-masing pohon dalam sebuah ensemble?

Terima kasih!

Tal Galili
sumber

Jawaban:

6

Tal,

Secara umum, pemangkasan akan merusak kinerja pohon kantong.

Tress adalah pengklasifikasi yang tidak stabil; yang berarti bahwa jika Anda sedikit mengganggu data, pohon mungkin akan berubah secara signifikan. Mereka bias rendah tetapi model varians tinggi. Bagging umumnya bekerja dengan "mereplikasi" model untuk menurunkan varians (trik lama "tambah ukuran sampel Anda").

Namun, jika Anda akhirnya mendapatkan rata-rata model yang sangat mirip, maka Anda tidak mendapatkan banyak. Jika pohon tidak dipangkas, mereka cenderung lebih berbeda satu sama lain daripada jika dipangkas. Ini memiliki efek "menghiasi" pohon sehingga Anda rata-rata pohon yang tidak terlalu mirip. Ini juga merupakan alasan bahwa hutan acak menambahkan perubahan tambahan dari pemilihan prediktor acak. Itu memaksa pohon menjadi sangat berbeda.

Menggunakan pohon yang tidak ditandai akan meningkatkan risiko overfiting, tetapi memodelkan rata-rata lebih dari offset ini (secara umum).

HTH,

Maks

topepo
sumber
Terima kasih, Max, jawaban Anda sangat membantu dan penuh wawasan. Hormat, Tal
Tal Galili