Hutan Acak tidak bisa berpakaian?

10

Saya telah membaca beberapa literatur yang hutan acak tidak bisa pakai terlalu banyak. Walaupun ini terdengar hebat, tampaknya terlalu bagus untuk menjadi kenyataan. Apakah mungkin bagi rf untuk berpakaian berlebihan?

screechOwl
sumber
5
Jika itu bisa pas, itu bisa berpakaian. Dalam hal RF, pikirkan apa yang terjadi jika hutan Anda tidak mengandung cukup pohon (katakanlah hutan Anda adalah satu pohon untuk membuat efeknya jelas). Ada lebih banyak masalah daripada yang ini, tetapi ini adalah yang paling jelas.
Marc Claesen
Saya baru saja menanggapi utas lainnya tentang RF sehingga bisa dengan mudah menyesuaikan jika jumlah prediktornya besar.
horaceT

Jawaban:

7

Hutan acak bisa cocok. Saya yakin akan hal ini. Apa yang biasanya dimaksud adalah bahwa model tidak akan cocok jika Anda menggunakan lebih banyak pohon.

Coba misalnya untuk memperkirakan model dengan hutan acak. Anda akan mendapatkan kesalahan pelatihan yang hampir nol tetapi kesalahan prediksi yang buruky=log(x)+ϵ

Donbeo
sumber
Random Forest pada prinsipnya mengurangi varians, bagaimana bisa overfit? @ Donbeo mungkinkah karena, model pohon keputusan tidak berkinerja baik pada ekstrapolasi. Katakanlah, untuk variabel prediktor anomali, DT dapat memberikan prediksi yang buruk.
Itachi
Salah satu indikasi yang jelas dari overfitting adalah bahwa varians residual berkurang terlalu banyak. Lalu, apa yang Anda maksudkan dengan komentar pertama Anda?
whuber
Dalam pertukaran bias-varians, ketika kami mencoba mengurangi bias, kami mengimbangi varians. Seperti itu, jika x = 80 memberi y = 100, tetapi x = 81 memberi y = -100. Ini akan terlalu pas . Tidak mirip dengan Ove karena memiliki varian tinggi. @whuber saya anggap ovefitting hanya karena varians yang tinggi. Saya tidak mengerti bagaimana mengurangi varians residual menghasilkan overfitting. Tolong bagikan beberapa kertas untuk saya baca.
Itachi
2
Ini tidak membutuhkan kertas apa pun! Anda bisa mencobanya sendiri. Ambil dataset sederhana bivariat kecil, seperti dan setiap koleksi yang sesuai Anda peduli untuk menghasilkan. Menggunakan kuadrat terkecil (karena ini bertujuan untuk mengurangi varians residu), pas dengan seri model untuk . Setiap langkah akan mengurangi varians sampai pada langkah terakhir varians adalah nol. Pada titik tertentu, hampir semua orang akan setuju, model sudah mulai menyesuaikan data. y i y = β 0 + β 1 x + β 2 x 2 + + β k x k k = 0 , 1 , , 9xi=1,2,,10yiy=β0+β1x+β2x2++βkxkk=0,1,,9
whuber
@whuber Saya pikir Anda kehilangan titik tentang apa "pengurangan varian". Hutan Acak (dan mengantongi secara umum) tidak mengurangi varians residu, tetapi varians prediksi Anda. Jadi, dalam contoh Anda, setiap langkah Anda berbicara tentang varian MENINGKAT :)
Davide ND