Haruskah orang memperhatikan multi-collinearity saat menggunakan model non-linear?

13

Katakanlah kita memiliki masalah klasifikasi biner dengan sebagian besar fitur kategorikal. Kami menggunakan beberapa model non-linear (mis. XGBoost atau Random Forests) untuk mempelajarinya.

  • Haruskah orang masih khawatir tentang multi-collinearity? Mengapa?
  • Jika jawaban di atas benar, bagaimana seharusnya seseorang melawannya mengingat dia menggunakan jenis model non-linear ini?
Josh
sumber

Jawaban:

7

Multi-collinearity tidak akan menjadi masalah untuk model-model tertentu. Seperti hutan acak atau pohon keputusan. Sebagai contoh, jika kita memiliki dua kolom yang identik, pohon keputusan / hutan acak akan secara otomatis "menjatuhkan" satu kolom di setiap pemisahan. Dan modelnya akan tetap bekerja dengan baik.

Selain itu, regularisasi adalah cara untuk "memperbaiki" masalah multi-collinearity. Jawaban saya Metode pengaturan untuk regresi logistik memberikan detail.

Haitao Du
sumber
5
Saya pikir ini akan ditingkatkan jika Anda menguraikan apa sebenarnya masalah yang "diperbaiki" oleh regularisasi.
Matthew Drury
2

Terlambat ke pesta, tapi tetap saja inilah jawaban saya, dan itu adalah "Ya", orang harus selalu memperhatikan collinearity, terlepas dari model / metode yang linier atau tidak, atau tugas utama adalah prediksi atau klasifikasi.

Asumsikan sejumlah kovariat / fitur berkorelasi linier hadir dalam kumpulan data dan Random Forest sebagai metode. Jelas, pemilihan acak per node hanya dapat memilih (atau sebagian besar) fitur collinear yang dapat / akan mengakibatkan perpecahan yang buruk, dan ini dapat terjadi berulang kali, sehingga secara negatif mempengaruhi kinerja.

Sekarang, fitur-fitur collinear mungkin kurang informatif tentang hasilnya daripada fitur-fitur lain (non-collinear) dan karena itu mereka harus dipertimbangkan untuk dihilangkan dari set fitur. Namun, anggaplah bahwa fitur berperingkat tinggi dalam daftar 'fitur penting' yang dihasilkan oleh RF. Dengan demikian mereka akan disimpan dalam set data yang tidak perlu meningkatkan dimensi. Jadi, dalam praktiknya, saya akan selalu, sebagai langkah eksplorasi (dari banyak yang terkait) memeriksa hubungan berpasangan fitur, termasuk korelasi linier.

dnqxt
sumber
Saya percaya ada kasus-kasus ketika multi-collinearity dapat diabaikan dengan aman, beberapa kasus dibahas di sini: statisticshorizons.com/multicollinearity
Dr Nisha Arora
0
  1. Haruskah orang masih khawatir tentang multi-collinearity? Mengapa?

Jika model non-linear adalah model berbasis pohon, maka Anda tidak harus menganggapnya serius. Model pohon yang berbeda akan memiliki metode kesepakatan yang berbeda, seperti hutan acak akan menjaga keduanya (karena mereka membangun pohon secara mandiri, dan memilih fitur secara acak untuk setiap pohon), tetapi tidak memiliki pengaruh terhadap kinerja prediksi, bahkan Anda menghapus yang berlebihan. Tetapi untuk xgboost, ia akan memilih siapa saja dari mereka, dan menggunakannya sampai pohon terakhir dibangun.

  1. Jika jawaban di atas benar, bagaimana seharusnya seseorang melawannya mengingat dia menggunakan jenis model non-linear ini?

Ini hanya tentang makna interpretasi, jadi hapus variabel yang sangat korelasi disarankan.

serigala
sumber
-3

Multi-collinearity selalu menjadi masalah yang mungkin terjadi. Variabel yang merupakan prediktor dalam model akan mempengaruhi prediksi ketika mereka terkait linier (yaitu, ketika collinearity hadir).

Michael R. Chernick
sumber
1
Terima kasih, jika (1) fokusnya adalah kinerja prediksi (dan bukan interpretabilitas) dan (2) modelnya non-linear, maukah Anda menjelaskan mengapa ini masih bisa menjadi masalah? (dan bagaimana tepatnya itu akan memanifestasikan dirinya?)
Josh
Variabel-variabel ini yang merupakan prediktor dalam model akan mempengaruhi prediksi ketika mereka terkait linier (yaitu collinearity hadir).
Michael R. Chernick
1
Mempengaruhi prediksi bagaimana, tepatnya? BTW, stats.stackexchange.com/a/138082/99274 , masukkan beberapa tautan dalam jawaban Anda atau hadapi murka kerumunan "pernah ke sana, lakukan itu".
Carl
7
Karena klasifikasi sangat erat kaitannya dengan prediksi, dan prediksi cenderung tidak menderita multikolinieritas, penting untuk mendukung pendapat Anda bahwa itu selalu merupakan "masalah yang mungkin," terutama untuk model tertentu yang disebutkan dalam pertanyaan. Masalah apa yang akan terjadi pada klasifikasi dan mengapa?
whuber
12
Saya cukup yakin Anda mengajukan pertanyaan. Whuber bertanya mengapa prediksi menderita multikolinearitas, dan Anda pada dasarnya menjawab "Prediksi menderita multikolinearitas karena prediksi menderita multikolinearitas."
Matthew Drury