Katakanlah kita memiliki masalah klasifikasi biner dengan sebagian besar fitur kategorikal. Kami menggunakan beberapa model non-linear (mis. XGBoost atau Random Forests) untuk mempelajarinya.
- Haruskah orang masih khawatir tentang multi-collinearity? Mengapa?
- Jika jawaban di atas benar, bagaimana seharusnya seseorang melawannya mengingat dia menggunakan jenis model non-linear ini?
Terlambat ke pesta, tapi tetap saja inilah jawaban saya, dan itu adalah "Ya", orang harus selalu memperhatikan collinearity, terlepas dari model / metode yang linier atau tidak, atau tugas utama adalah prediksi atau klasifikasi.
Asumsikan sejumlah kovariat / fitur berkorelasi linier hadir dalam kumpulan data dan Random Forest sebagai metode. Jelas, pemilihan acak per node hanya dapat memilih (atau sebagian besar) fitur collinear yang dapat / akan mengakibatkan perpecahan yang buruk, dan ini dapat terjadi berulang kali, sehingga secara negatif mempengaruhi kinerja.
Sekarang, fitur-fitur collinear mungkin kurang informatif tentang hasilnya daripada fitur-fitur lain (non-collinear) dan karena itu mereka harus dipertimbangkan untuk dihilangkan dari set fitur. Namun, anggaplah bahwa fitur berperingkat tinggi dalam daftar 'fitur penting' yang dihasilkan oleh RF. Dengan demikian mereka akan disimpan dalam set data yang tidak perlu meningkatkan dimensi. Jadi, dalam praktiknya, saya akan selalu, sebagai langkah eksplorasi (dari banyak yang terkait) memeriksa hubungan berpasangan fitur, termasuk korelasi linier.
sumber
Jika model non-linear adalah model berbasis pohon, maka Anda tidak harus menganggapnya serius. Model pohon yang berbeda akan memiliki metode kesepakatan yang berbeda, seperti hutan acak akan menjaga keduanya (karena mereka membangun pohon secara mandiri, dan memilih fitur secara acak untuk setiap pohon), tetapi tidak memiliki pengaruh terhadap kinerja prediksi, bahkan Anda menghapus yang berlebihan. Tetapi untuk xgboost, ia akan memilih siapa saja dari mereka, dan menggunakannya sampai pohon terakhir dibangun.
Ini hanya tentang makna interpretasi, jadi hapus variabel yang sangat korelasi disarankan.
sumber
Multi-collinearity selalu menjadi masalah yang mungkin terjadi. Variabel yang merupakan prediktor dalam model akan mempengaruhi prediksi ketika mereka terkait linier (yaitu, ketika collinearity hadir).
sumber