Adakah yang bisa menyarankan tahap apa yang tepat untuk menghapus variabel berkorelasi sebelum rekayasa fitur atau setelah rekayasa fitur?
Adakah yang bisa menyarankan tahap apa yang tepat untuk menghapus variabel berkorelasi sebelum rekayasa fitur atau setelah rekayasa fitur?
Anda tidak ingin menghapus semua variabel yang berkorelasi. Hanya ketika korelasinya begitu kuat sehingga mereka tidak menyampaikan informasi tambahan. Ini adalah fungsi dari kekuatan korelasi, berapa banyak data yang Anda miliki dan apakah ada sedikit perbedaan antara variabel yang berkorelasi memberi tahu Anda sesuatu tentang hasilnya.
Dua yang pertama bisa Anda katakan sebelum Anda melakukan model apa pun, yang terakhir tidak. Jadi, mungkin sangat masuk akal untuk menghapus variabel berdasarkan kombinasi dari dua pertimbangan pertama (yaitu, bahkan jika variabel tambahan pada prinsipnya berisi beberapa informasi yang berguna, Anda tidak akan dapat memberi tahu mengingat kekuatan korelasi dan berapa banyak data Anda miliki) sebelum Anda melakukan pemodelan / rekayasa fitur. Poin terakhir benar-benar hanya dapat dinilai setelah melakukan beberapa pemodelan.
Aneh bahwa tidak ada orang lain yang menyebutkan interpretabilitas .
Jika semua yang Anda perhatikan adalah kinerja , maka tidak masuk akal untuk menghapus dua variabel yang berkorelasi, kecuali korelasi = 1 atau -1, dalam hal ini salah satu variabel tersebut berlebihan.
Tetapi jika khawatir tentang interpretabilitas maka mungkin masuk akal untuk menghapus salah satu variabel, bahkan jika korelasinya ringan. Ini terutama berlaku untuk model linier. Salah satu asumsi dari regresi linier adalah kurangnya multikolinieritas sempurna pada prediktor.
Jika A berkorelasi dengan B, maka Anda tidak dapat menafsirkan koefisien bukan A atau B. Untuk melihat alasannya, bayangkan kasus ekstrim ketika A = B (korelasi sempurna). Kemudian, model y = 100 * A + 50 * B sama dengan model y = 5 * A + 10 * B atau y = -2000 * A + 4000 * B. Ada beberapa keseimbangan dalam solusi yang mungkin untuk masalah minimalisasi kuadrat sehingga Anda tidak bisa "percaya" juga.
Hal serupa dapat terjadi dengan model lain. Misalnya, jika A sangat berkorelasi dengan B, maka jika pohon keputusan memilih A dua kali lipat dari B, maka Anda tidak bisa mengatakan bahwa A lebih penting daripada B. Jika Anda melatih ulang model, yang sebaliknya bisa terjadi.
Itu tidak masalah. Tetapi untuk efisiensi sebelum rekayasa fitur.
sumber
Tentukan kovarians, dan lakukan pekerjaan awal Anda dengan set tertinggi.
sumber