Tidak akankah variabel yang sangat berkorelasi dalam keakuratan hutan acak dan pemilihan fitur?

32

Dalam pemahaman saya, variabel yang sangat berkorelasi tidak akan menyebabkan masalah multi-collinearity dalam model hutan acak (Harap perbaiki saya jika saya salah). Namun, di sisi lain, jika saya memiliki terlalu banyak variabel yang berisi informasi serupa, akankah bobot model terlalu banyak pada set ini daripada yang lain?

Misalnya, ada dua set informasi (A, B) dengan daya prediksi yang sama. Variabel , , ... semua berisi informasi A, dan hanya Y yang berisi informasi B. Ketika variabel pengambilan sampel acak, apakah sebagian besar pohon akan tumbuh pada informasi A, dan sebagai hasilnya informasi B tidak sepenuhnya ditangkap? $X_1$ $X_2$ $X_{1000}$

random-forest multicollinearity ensemble Yoki
sumber

19

Itu benar, tetapi karena itu di sebagian besar sub-sampel di mana variabel Y tersedia itu akan menghasilkan split terbaik.

Anda dapat mencoba meningkatkan, untuk memastikan ini terjadi lebih sering.

Anda dapat mencoba pemangkasan korelasi rekursif, yang pada gilirannya untuk menghapus salah satu dari dua variabel yang bersama-sama memiliki korelasi tertinggi. Ambang batas yang masuk akal untuk menghentikan pemangkasan ini adalah bahwa setiap pasangan korelasi (pearson) lebih rendah dari $R^2<.7$

Anda dapat mencoba pemangkasan pentingnya variabel rekursif, yang pada gilirannya akan dihapus, misalnya 20% dengan kepentingan variabel terendah. Coba misalnya rfcv dari paket randomForest.

Anda dapat mencoba beberapa dekomposisi / agregasi dari variabel redundan Anda.

Soren Havelund Welling
sumber

3

Di beberapa sumber, saya melihat multicollinearitytidak ada efek pada model hutan acak. Sebagai contoh, di sini , jawaban yang paling banyak dipilih mengatakan bahwa "tidak ada bagian dari model hutan acak yang dirugikan oleh variabel yang sangat collinear". Apakah ini memiliki validitas?

Hunle

5

Saya pikir Anda membaca TIDAK terlalu harfiah. Model RF menangani variabel berkorelasi / redundan yang cukup baik, ya. Tapi itu tidak berarti model Anda tentu mendapat manfaat dari menimbun variabel yang tidak terkait atau sepenuhnya berlebihan (mis. Rekombinasi linier), itu juga tidak crash. Saya hanya menganjurkan pemilihan variabel sederhana, untuk mengharapkan peningkatan sederhana dari kinerja model cross-divalidasi.

Soren Havelund Welling

24

Utas lama, tapi saya tidak setuju dengan pernyataan selimut bahwa collinearity bukan masalah dengan model hutan acak. Ketika dataset memiliki dua (atau lebih) fitur yang berkorelasi, maka dari sudut pandang model, salah satu dari fitur yang berkorelasi ini dapat digunakan sebagai prediktor, tanpa preferensi konkret dari satu di atas yang lain.

Namun begitu salah satu dari mereka digunakan, pentingnya orang lain berkurang secara signifikan karena secara efektif ketidakmurnian yang dapat mereka hapus sudah dihapus oleh fitur pertama.

Akibatnya, mereka akan memiliki kepentingan yang dilaporkan lebih rendah. Ini bukan masalah ketika kita ingin menggunakan pemilihan fitur untuk mengurangi overfitting, karena masuk akal untuk menghapus fitur yang sebagian besar diduplikasi oleh fitur lain, tetapi ketika menafsirkan data , itu dapat mengarah pada kesimpulan yang salah bahwa salah satu variabel adalah prediktor yang kuat sementara yang lain dalam kelompok yang sama tidak penting, sementara sebenarnya mereka sangat dekat dalam hal hubungan mereka dengan variabel respon.

Efek dari fenomena ini agak berkurang berkat pemilihan fitur secara acak pada setiap pembuatan node, tetapi secara umum efeknya tidak dihapus sepenuhnya.

Di atas sebagian besar ditulis dari sini: Memilih fitur yang bagus

GDB
sumber

3

Ini telah menjadi artikel saya untuk pemilihan fitur dengan RF, karena variabel pentingnya sering digunakan sebagai metrik bmcbioinformatics.biomedcentral.com/articles/10.1186/... Sejak dua tahun lalu saya menjadi lebih skeptis terhadap pemilihan fitur. Seleksi fitur menghasilkan lintas optimistik berlebihan -validasi jika tidak dilakukan dalam loop validasi silang luar yang tepat. Jika dilakukan dengan benar, saya sering melihat tidak ada atau hanya sedikit optimasi kinerja prediksi. Sekarang saya terutama menggunakan pemilihan fitur untuk menyederhanakan mesin prediksi dalam produksi atau untuk membuat model akhir lebih transparan.

Soren Havelund Welling

@SorenHavelundWelling - Anda mengatakan bahwa "Pemilihan fitur menghasilkan validasi silang yang terlalu optimistis jika tidak dilakukan dalam loop validasi silang luar yang tepat". Bisakah Anda menjelaskannya, atau merujuk ke sumber yang menjelaskan hal itu? Itu bertentangan dengan semua yang saya baca sejauh ini ...

Jack Fleeting

stats.stackexchange.com/questions/27750/…

Soren Havelund Welling

Tidak akankah variabel yang sangat berkorelasi dalam keakuratan hutan acak dan pemilihan fitur?

Jawaban: