Kapan menghapus variabel berkorelasi

Jawaban:

8

Anda tidak ingin menghapus semua variabel yang berkorelasi. Hanya ketika korelasinya begitu kuat sehingga mereka tidak menyampaikan informasi tambahan. Ini adalah fungsi dari kekuatan korelasi, berapa banyak data yang Anda miliki dan apakah ada sedikit perbedaan antara variabel yang berkorelasi memberi tahu Anda sesuatu tentang hasilnya.

Dua yang pertama bisa Anda katakan sebelum Anda melakukan model apa pun, yang terakhir tidak. Jadi, mungkin sangat masuk akal untuk menghapus variabel berdasarkan kombinasi dari dua pertimbangan pertama (yaitu, bahkan jika variabel tambahan pada prinsipnya berisi beberapa informasi yang berguna, Anda tidak akan dapat memberi tahu mengingat kekuatan korelasi dan berapa banyak data Anda miliki) sebelum Anda melakukan pemodelan / rekayasa fitur. Poin terakhir benar-benar hanya dapat dinilai setelah melakukan beberapa pemodelan.

Björn
sumber
2

Aneh bahwa tidak ada orang lain yang menyebutkan interpretabilitas .

Jika semua yang Anda perhatikan adalah kinerja , maka tidak masuk akal untuk menghapus dua variabel yang berkorelasi, kecuali korelasi = 1 atau -1, dalam hal ini salah satu variabel tersebut berlebihan.

Tetapi jika khawatir tentang interpretabilitas maka mungkin masuk akal untuk menghapus salah satu variabel, bahkan jika korelasinya ringan. Ini terutama berlaku untuk model linier. Salah satu asumsi dari regresi linier adalah kurangnya multikolinieritas sempurna pada prediktor.

Jika A berkorelasi dengan B, maka Anda tidak dapat menafsirkan koefisien bukan A atau B. Untuk melihat alasannya, bayangkan kasus ekstrim ketika A = B (korelasi sempurna). Kemudian, model y = 100 * A + 50 * B sama dengan model y = 5 * A + 10 * B atau y = -2000 * A + 4000 * B. Ada beberapa keseimbangan dalam solusi yang mungkin untuk masalah minimalisasi kuadrat sehingga Anda tidak bisa "percaya" juga.

Hal serupa dapat terjadi dengan model lain. Misalnya, jika A sangat berkorelasi dengan B, maka jika pohon keputusan memilih A dua kali lipat dari B, maka Anda tidak bisa mengatakan bahwa A lebih penting daripada B. Jika Anda melatih ulang model, yang sebaliknya bisa terjadi.

Ricardo Cruz
sumber
2

Anda harus mempertimbangkan memeriksa VIF (Variance Inflation Factor). Coba hapus fitur dengan VIF yang lebih tinggi. Secara umum, VIF lebih disukai di bawah 10.

Siddhi Kiran Bajracharya
sumber
Ini sangat mirip dengan jawaban saya di datasetcience.stackexchange.com/questions/36634/...
Siddhi Kiran Bajracharya
1

Itu tidak masalah. Tetapi untuk efisiensi sebelum rekayasa fitur.

Mohit Motwani
sumber
1

Tentukan kovarians, dan lakukan pekerjaan awal Anda dengan set tertinggi.

Richard Careaga
sumber