Dalam pemahaman saya, variabel yang sangat berkorelasi tidak akan menyebabkan masalah multi-collinearity dalam model hutan acak (Harap perbaiki saya jika saya salah). Namun, di sisi lain, jika saya memiliki terlalu banyak variabel yang berisi informasi serupa, akankah bobot model terlalu banyak pada set ini daripada yang lain?
Misalnya, ada dua set informasi (A, B) dengan daya prediksi yang sama. Variabel , , ... semua berisi informasi A, dan hanya Y yang berisi informasi B. Ketika variabel pengambilan sampel acak, apakah sebagian besar pohon akan tumbuh pada informasi A, dan sebagai hasilnya informasi B tidak sepenuhnya ditangkap?
multicollinearity
tidak ada efek pada model hutan acak. Sebagai contoh, di sini , jawaban yang paling banyak dipilih mengatakan bahwa "tidak ada bagian dari model hutan acak yang dirugikan oleh variabel yang sangat collinear". Apakah ini memiliki validitas?Utas lama, tapi saya tidak setuju dengan pernyataan selimut bahwa collinearity bukan masalah dengan model hutan acak. Ketika dataset memiliki dua (atau lebih) fitur yang berkorelasi, maka dari sudut pandang model, salah satu dari fitur yang berkorelasi ini dapat digunakan sebagai prediktor, tanpa preferensi konkret dari satu di atas yang lain.
Namun begitu salah satu dari mereka digunakan, pentingnya orang lain berkurang secara signifikan karena secara efektif ketidakmurnian yang dapat mereka hapus sudah dihapus oleh fitur pertama.
Akibatnya, mereka akan memiliki kepentingan yang dilaporkan lebih rendah. Ini bukan masalah ketika kita ingin menggunakan pemilihan fitur untuk mengurangi overfitting, karena masuk akal untuk menghapus fitur yang sebagian besar diduplikasi oleh fitur lain, tetapi ketika menafsirkan data , itu dapat mengarah pada kesimpulan yang salah bahwa salah satu variabel adalah prediktor yang kuat sementara yang lain dalam kelompok yang sama tidak penting, sementara sebenarnya mereka sangat dekat dalam hal hubungan mereka dengan variabel respon.
Efek dari fenomena ini agak berkurang berkat pemilihan fitur secara acak pada setiap pembuatan node, tetapi secara umum efeknya tidak dihapus sepenuhnya.
Di atas sebagian besar ditulis dari sini: Memilih fitur yang bagus
sumber