Bisakah saya menghapus salah satu dari dua variabel prediktor yang sangat berkorelasi linier?

18

Menggunakan Koefisien Korelasi Pearson, saya memiliki beberapa variabel yang sangat berkorelasi ( dan untuk 2 pasang variabel yang ada dalam model saya). $\rho = 0.978$ $\rho = 0.989$

The Alasan beberapa variabel yang sangat berkorelasi karena satu variabel yang digunakan dalam perhitungan untuk variabel lain.

Contoh:

$B = V / 3000$ dan $E = V * D$

$B$ dan memiliki $E$ $\rho = 0.989$

Apakah mungkin bagi saya untuk hanya "membuang" salah satu variabel?

regression correlation modeling TheCloudlessSky
sumber

26

Baik B dan E berasal dari V. B dan E jelas tidak benar-benar "independen" satu sama lain. Variabel yang mendasari yang benar-benar penting di sini adalah V. Anda mungkin harus mengabaikan B dan E dalam hal ini dan menyimpan hanya V.

Dalam situasi yang lebih umum, ketika Anda memiliki dua variabel independen yang berkorelasi sangat tinggi, Anda harus menghapus salah satunya karena Anda mengalami masalah multikolinieritas dan koefisien regresi model regresi yang terkait dengan dua variabel berkorelasi tinggi tidak dapat diandalkan. Juga, dalam bahasa Inggris sederhana jika dua variabel sangat berkorelasi mereka jelas akan memberikan informasi yang hampir sama persis dengan model regresi Anda. Tapi, dengan memasukkan keduanya Anda benar-benar melemahkan model. Anda tidak menambahkan informasi tambahan. Sebaliknya, Anda menanamkan model Anda dengan noise. Bukan hal yang baik.

Salah satu cara Anda dapat menjaga variabel yang sangat berkorelasi dalam model Anda adalah dengan menggunakan alih-alih regresi model Principal Component Analysis (PCA). Model PCA dibuat untuk menghilangkan multikolinieritas. Imbalannya adalah Anda berakhir dengan dua atau tiga komponen utama dalam model Anda yang seringkali hanya merupakan konstruksi matematis dan cukup banyak tidak dapat dipahami secara logis. PCA karena itu sering ditinggalkan sebagai metode setiap kali Anda harus mempresentasikan hasil Anda kepada audiens luar seperti manajemen, regulator, dll ... Model PCA membuat kotak hitam samar yang sangat menantang untuk dijelaskan.

Sympa
sumber

1

(+1) untuk penjelasan PCA.

steffen

1

Terima kasih, ini penjelasan yang bagus. Saya pernah mendengar dan membaca tentang PCA, tapi ini untuk tugas akhir untuk program pascasarjana "regresi" yang saya ambil, dan profesor hanya ingin kita menggunakan LR. Apapun, saya sangat menghargai penjelasan PCA dan mungkin akan menggunakannya sendiri untuk bersenang-senang.

TheCloudlessSky

3

Dalam keadaan tertentu rekomendasi dalam jawaban ini tidak akan berfungsi. Misalnya, bagaimana jika hubungan yang sebenarnya adalah Y = B + E = V / 3000 + V * D? Kemudian variabel kebetulan memiliki korelasi tinggi karena rentang V dan D dalam dataset - yang merupakan (atau dapat) kecelakaan murni - sementara membuang salah satu dari B atau E akan menghasilkan model yang salah. Singkatnya, "ketergantungan" secara umum bukan alasan yang sah untuk menghapus beberapa variabel dari suatu model; termasuk variabel yang sangat tergantung tidak selalu "melemahkan" model; PCA tidak selalu jalan keluar.

whuber

@whuber, saya tidak yakin saya setuju dengan komentar Anda. Saya akan berpikir "ketergantungan" secara umum merupakan alasan yang cukup valid untuk menghapus beberapa variabel dari model regresi. Jika tidak, koefisien regresi Anda tidak dapat diandalkan. Dalam contoh yang Anda gunakan yang akan bermasalah untuk regresi, satu solusi sederhana adalah dengan menggunakan seluruh ekspresi (V / 3000 + V * D) sebagai variabel tunggal.

Sympa

3

Lebih umum, jika modelnya beta1 * (V / 3000) + beta2 * (V D) Anda tidak bisa melakukan ini: dengan kata lain, saran Anda menganggap Anda tahu kendala linear di antara koefisien. Memang benar bahwa koefisien regresi dapat memiliki * VIF yang relatif besar atau kesalahan standar, tetapi dengan jumlah data yang cukup - atau dengan pengamatan yang dipilih dengan baik - perkiraan akan cukup andal. Jadi, kami setuju ada masalah dan memang saya setuju dengan solusi Anda sebagai salah satu dari beberapa alternatif untuk dipertimbangkan . Saya tidak setuju bahwa itu bersifat umum dan perlu seperti yang Anda lakukan.

whuber

7

Inilah jawaban dari sudut pandang pembelajar mesin, meskipun saya takut saya akan dikalahkan oleh ahli statistik sungguhan untuk itu.

Apakah mungkin bagi saya untuk hanya "membuang" salah satu variabel?

Nah, pertanyaannya adalah jenis model apa yang ingin Anda gunakan untuk prediksi. Tergantung misalnya pada ...

dapatkah model dengan prediktor yang berkorelasi? Misalnya, meskipun NaiveBayes secara teoritis memiliki masalah dengan variabel yang berkorelasi, percobaan menunjukkan bahwa ia masih dapat bekerja dengan baik.
bagaimana model memproses variabel prediktor? Misalnya perbedaan antara B dan V akan dinormalisasi dalam estimasi kepadatan probabilitas, mungkin sama untuk E dan V tergantung pada varian D (seperti yang sudah dikatakan euforia)
kombinasi penggunaan B dan E mana (satu, tidak ada, keduanya) memberikan hasil terbaik, diestimasi dengan validasi silang + tes pada set pegangan?

Terkadang, kami membuat mesin, peserta didik, bahkan melakukan optimasi genetik untuk menemukan kombinasi aritmatika terbaik dari serangkaian prediktor.

steffen
sumber

7

B adalah transformasi linear dari V. E mewakili interaksi antara V dan D. Sudahkah Anda mempertimbangkan untuk menetapkan model Y = Intercept + V + D + V: D? Seperti yang disarankan oleh @ euphoria83, sepertinya ada sedikit variasi dalam D, jadi itu mungkin tidak menyelesaikan masalah Anda; namun setidaknya harus menjelaskan kontribusi independen V dan D. Pastikan untuk memusatkan kedua V dan D sebelumnya.

russellpierce
sumber

4

+1: Tidak hanya saran ini pendekatan yang baik untuk masalah yang dipermasalahkan, ini menunjukkan bahwa membuang variabel tidak selalu merupakan pendekatan yang tepat (atau bahkan yang baik) untuk memecahkan masalah collinearity.

whuber

0

Jika D bukan konstanta, maka B dan E secara efektif adalah dua variabel yang berbeda karena variasi dalam D. Korelasi yang tinggi menunjukkan bahwa D praktis konstan di seluruh data pelatihan. Jika itu masalahnya, maka Anda dapat membuang B atau E.

euphoria83
sumber

1

D = \frac{n_{1}}{2} * \frac{N_{2}}{n_{2}}

$D = \frac{n_1}{2} * \frac{N_2}{n_2}$

Jika Anda membuang B atau E dan memperlakukannya sebagai setara maka Anda secara implisit menyatakan bahwa V adalah yang paling penting. Jika itu masalahnya, Anda akan lebih baik mempertahankan B dalam model karena interpretasinya jelas. Selanjutnya, jika Anda mempertahankan E, tapi D sebenarnya memiliki varian terbatas, validitas interpretasi hasil Anda akan lebih tersangka (dari biasanya) untuk nilai yang berbeda dari D.

russellpierce

Bisakah saya menghapus salah satu dari dua variabel prediktor yang sangat berkorelasi linier?

Jawaban: