Berurusan dengan regresi berkorelasi

23

Dalam regresi linier berganda dengan regresi yang sangat berkorelasi, apa strategi terbaik untuk digunakan? Apakah ini pendekatan yang sah untuk menambahkan produk dari semua regressor yang berkorelasi?

Ηλίας
sumber
1
Maaf melihat jawaban Suncoolsu telah dihapus. Itu dan komentar yang mengikuti mengklarifikasi perbedaan antara multikolinieritas dan kondisi buruk. Juga, dalam komentar Suncoolsu menunjukkan bagaimana standardisasi awal dapat membantu dengan regresi polinomial. Jika kebetulan muncul kembali saya akan memilihnya ;-).
whuber
@ Ηλίας: Produk cenderung tidak stabil di banyak aplikasi. Itu dapat diganggu oleh banyak nol jika individu regresor memiliki beberapa nol; nilai absolutnya cenderung memiliki kecenderungan positif yang kuat, sehingga menimbulkan beberapa poin leverage tinggi; itu mungkin memperkuat data outlying, terutama outlier simultan, lebih lanjut menambah leverage mereka. Mungkin agak sulit untuk menafsirkan, juga, terutama jika regressor sudah merupakan ekspresi ulang dari variabel asli (seperti log atau root).
whuber

Jawaban:

13

Komponen utama sangat masuk akal ... secara matematis. Namun, saya akan berhati-hati hanya menggunakan beberapa trik matematika dalam kasus ini dan berharap bahwa saya tidak perlu memikirkan masalah saya.

Saya akan merekomendasikan sedikit berpikir tentang apa jenis prediktor yang saya miliki, apa variabel independennya, mengapa prediktor saya berkorelasi, apakah beberapa prediktor saya benar-benar mengukur realitas mendasar yang sama (jika demikian, apakah saya dapat bekerja dengan pengukuran tunggal dan prediksi saya yang mana yang terbaik untuk ini), apa yang saya lakukan untuk analisis - jika saya tidak tertarik pada kesimpulan, hanya dalam prediksi, maka saya benar-benar bisa meninggalkan sesuatu seperti apa adanya, selama masa depan nilai prediktor mirip dengan nilai sebelumnya.

S. Kolassa - Reinstate Monica
sumber
4
Sepenuhnya disetujui, +1. Tetapi karakterisasi PCA sebagai "trik matematika" secara tidak adil meremehkannya, IMHO. Jika Anda setuju (saya tidak yakin Anda melakukannya) bahwa kelompok penjumlahan atau rata-rata dari regresi, seperti yang disarankan Srikant, akan dapat diterima, maka PCA harus sama dapat diterima dan biasanya meningkatkan kecocokan. Selain itu, komponen utama dapat memberikan wawasan tentang kelompok prediktor mana yang berkorelasi dan bagaimana mereka berkorelasi: itu adalah alat yang sangat baik untuk pemikiran yang Anda advokasi.
whuber
2
@whuber, saya melihat dan setuju dengan poin Anda, dan saya tidak ingin meremehkan PCA, jadi pasti +1. Saya hanya ingin menunjukkan bahwa menggunakan PCA secara membabi buta tanpa melihat dan memikirkan masalah yang mendasarinya (yang tidak
didukung
11

Anda dapat menggunakan komponen utama atau regresi ridge untuk menangani masalah ini. Di sisi lain, jika Anda memiliki dua variabel yang berkorelasi cukup tinggi untuk menyebabkan masalah dengan estimasi parameter, maka Anda hampir pasti bisa menjatuhkan salah satu dari dua tanpa kehilangan banyak dalam hal prediksi - karena kedua variabel membawa informasi yang sama . Tentu saja, itu hanya berfungsi ketika masalah disebabkan oleh dua orang yang sangat berkorelasi. Ketika masalah melibatkan lebih dari dua variabel yang bersama-sama hampir collinear (dua di antaranya mungkin hanya memiliki korelasi sedang), Anda mungkin akan memerlukan salah satu metode lain.

Brett
sumber
2
(+1) Sekarang, masalahnya adalah bahwa OP tidak menunjukkan berapa banyak variabel yang masuk ke dalam model, karena jika jumlahnya banyak, mungkin lebih baik melakukan penyusutan dan pemilihan variabel, melalui misalnya kriteria elasticnet (yang merupakan kombinasi hukuman Lasso dan Ridge).
chl
3

Berikut adalah pemikiran lain yang terinspirasi oleh jawaban Stephan :

Jika beberapa regresi Anda yang berkorelasi secara bermakna terkait (misalnya, mereka adalah ukuran kecerdasan yang berbeda yaitu, verbal, matematika, dll) maka Anda dapat membuat variabel tunggal yang mengukur variabel yang sama menggunakan salah satu teknik berikut:

  • Jumlahkan regressor (sesuai jika regressor adalah komponen dari keseluruhan, misalnya, IQ verbal + matematika IQ = IQ keseluruhan)

  • Rata-rata regressor (sesuai jika regressor mengukur konstruksi dasar yang sama misalnya, ukuran sepatu kiri, ukuran sepatu kanan untuk mengukur panjang kaki)

  • Analisis faktor (untuk memperhitungkan kesalahan dalam pengukuran dan untuk mengekstrak faktor laten)

Anda kemudian dapat menghapus semua regresi yang berkorelasi dan menggantinya dengan satu variabel yang muncul dari analisis di atas.

Komunitas
sumber
1
Ini masuk akal jika semua regressor diukur pada skala yang sama. Dalam psikologi, berbagai subskala sering diukur pada skala yang berbeda (dan masih berkorelasi), sehingga jumlah tertimbang atau rata-rata (yang benar-benar sama di sini) akan sesuai. Dan tentu saja, orang dapat melihat PCA sebagai menyediakan pembobotan hanya dengan menghitung sumbu varian maksimum.
S. Kolassa - Reinstate Monica
2

Saya hampir mengatakan hal yang sama dengan Stephan Kolassa di atas (jadi saya telah mengangkat jawabannya). Saya hanya akan menambahkan bahwa kadang-kadang multikolinearitas dapat disebabkan oleh penggunaan variabel luas yang semuanya sangat berkorelasi dengan beberapa ukuran ukuran, dan hal-hal dapat ditingkatkan dengan menggunakan variabel intensif, yaitu membagi semuanya melalui beberapa ukuran ukuran. Misalnya, jika unit Anda adalah negara, Anda dapat membagi berdasarkan populasi, area, atau GNP, tergantung pada konteksnya.

Oh - dan untuk menjawab bagian kedua dari pertanyaan awal: Saya tidak bisa memikirkan situasi apa pun ketika menambahkan produk dari semua regressor yang berkorelasi adalah ide yang bagus. Bagaimana ini membantu? Apa artinya itu?

onestop
sumber
Ide awal saya adalah menambahkan dengan mempertimbangkan interaksi berpasangan dari para regresi
gressλίας
Sering kali merupakan ide yang baik untuk memperhitungkan interaksi berpasangan. Tetapi tidak semua dari mereka: Anda perlu berpikir melalui yang masuk akal!
kjetil b halvorsen
1

Saya bukan ahli dalam hal ini, tetapi pikiran pertama saya adalah menjalankan analisis komponen utama pada variabel prediktor, kemudian menggunakan komponen utama yang dihasilkan untuk memprediksi variabel dependen Anda.

Mike Lawrence
sumber
kk
p
@ chl Poin bagus. Tetapi karena komponen utama adalah kombinasi linier, sangat mudah (walaupun terkadang sedikit merepotkan) untuk menyusun model regresi yang sesuai (= satu transformasi linear) dengan proyeksi ke komponen (= transformasi linier lain) untuk mendapatkan model linier yang dapat ditafsirkan. melibatkan semua variabel asli. Ini agak mirip dengan teknik ortogonisasi. Perhatikan juga, bahwa proposal terbaru Srikant (jumlah atau rata-rata para regressor) pada dasarnya mendekati vektor eigen utama namun menyebabkan kesulitan penjelasan yang serupa.
whuber
@whuber Ya, saya setuju dengan kedua poin Anda. Saya banyak menggunakan regresi PLS dan CCA, jadi dalam hal ini kita harus berurusan dengan kombinasi linear di kedua sisi (st. Kovarians maks. Atau kriteria korelasi); dengan sejumlah besar prediktor, menafsirkan vektor kanonik itu menyakitkan, jadi kami hanya melihat variabel yang paling berkontribusi. Sekarang, saya bisa membayangkan bahwa tidak ada begitu banyak prediktor sehingga semua argumen Anda (@Stephan, @Mike) masuk akal.
chl
-1

X

xijstandardized=xijx.j¯sj

Ini bukan obat, tapi jelas langkah ke arah yang benar.

suncoolsu
sumber
8
Transformasi linear (seperti ini) tidak pernah mengubah koefisien korelasi. Titik standardisasi adalah untuk meningkatkan pengkondisian matriks normal.
whuber
1
Membakukan variabel tidak akan memengaruhi korelasi di antara variabel independen dan tidak akan "mengurangi pengaruh korelasi" dengan cara apa pun yang dapat saya pikirkan sehubungan dengan masalah ini.
Brett
2
@ Brett, contoh khas di mana standardisasi membantu adalah Regresi Polinomial . Itu selalu dianjurkan untuk menstandarisasi regressor. Standarisasi tidak mengubah matriks korelasi, tetapi membuat matriks var cov (yang sekarang merupakan matriks korelasi) berperilaku baik (disebut pengkondisian oleh @whuber menunjuk ke nomor kondisi matriks, IMHO).
suncoolsu
Sepakat. Pemusatan berguna saat memasukkan istilah pesanan lebih tinggi, seperti istilah polinomial atau interaksi. Tampaknya tidak menjadi masalah di sini dan tidak akan membantu dengan masalah prediktor yang berkorelasi.
Brett
Saya menghapusnya karena saya tidak ingin membingungkan orang dengan jawaban yang salah. Mungkin moderator mengangkatnya lagi.
suncoolsu