Baik B dan E berasal dari V. B dan E jelas tidak benar-benar "independen" satu sama lain. Variabel yang mendasari yang benar-benar penting di sini adalah V. Anda mungkin harus mengabaikan B dan E dalam hal ini dan menyimpan hanya V.
Dalam situasi yang lebih umum, ketika Anda memiliki dua variabel independen yang berkorelasi sangat tinggi, Anda harus menghapus salah satunya karena Anda mengalami masalah multikolinieritas dan koefisien regresi model regresi yang terkait dengan dua variabel berkorelasi tinggi tidak dapat diandalkan. Juga, dalam bahasa Inggris sederhana jika dua variabel sangat berkorelasi mereka jelas akan memberikan informasi yang hampir sama persis dengan model regresi Anda. Tapi, dengan memasukkan keduanya Anda benar-benar melemahkan model. Anda tidak menambahkan informasi tambahan. Sebaliknya, Anda menanamkan model Anda dengan noise. Bukan hal yang baik.
Salah satu cara Anda dapat menjaga variabel yang sangat berkorelasi dalam model Anda adalah dengan menggunakan alih-alih regresi model Principal Component Analysis (PCA). Model PCA dibuat untuk menghilangkan multikolinieritas. Imbalannya adalah Anda berakhir dengan dua atau tiga komponen utama dalam model Anda yang seringkali hanya merupakan konstruksi matematis dan cukup banyak tidak dapat dipahami secara logis. PCA karena itu sering ditinggalkan sebagai metode setiap kali Anda harus mempresentasikan hasil Anda kepada audiens luar seperti manajemen, regulator, dll ... Model PCA membuat kotak hitam samar yang sangat menantang untuk dijelaskan.
Inilah jawaban dari sudut pandang pembelajar mesin, meskipun saya takut saya akan dikalahkan oleh ahli statistik sungguhan untuk itu.
Apakah mungkin bagi saya untuk hanya "membuang" salah satu variabel?
Nah, pertanyaannya adalah jenis model apa yang ingin Anda gunakan untuk prediksi. Tergantung misalnya pada ...
Terkadang, kami membuat mesin, peserta didik, bahkan melakukan optimasi genetik untuk menemukan kombinasi aritmatika terbaik dari serangkaian prediktor.
sumber
B adalah transformasi linear dari V. E mewakili interaksi antara V dan D. Sudahkah Anda mempertimbangkan untuk menetapkan model Y = Intercept + V + D + V: D? Seperti yang disarankan oleh @ euphoria83, sepertinya ada sedikit variasi dalam D, jadi itu mungkin tidak menyelesaikan masalah Anda; namun setidaknya harus menjelaskan kontribusi independen V dan D. Pastikan untuk memusatkan kedua V dan D sebelumnya.
sumber
Jika D bukan konstanta, maka B dan E secara efektif adalah dua variabel yang berbeda karena variasi dalam D. Korelasi yang tinggi menunjukkan bahwa D praktis konstan di seluruh data pelatihan. Jika itu masalahnya, maka Anda dapat membuang B atau E.
sumber