Apakah ada penjelasan intuitif mengapa multikolinearitas merupakan masalah dalam regresi linier?

85

Wiki membahas masalah yang muncul ketika multikolinieritas merupakan masalah dalam regresi linier. Masalah dasarnya adalah hasil multikolinieritas dalam estimasi parameter yang tidak stabil yang membuatnya sangat sulit untuk menilai pengaruh variabel independen terhadap variabel dependen.

Saya mengerti alasan teknis di balik masalah (mungkin tidak dapat membalikkan , - dikondisikan dll) tetapi saya sedang mencari penjelasan yang lebih intuitif (mungkin geometris?) Untuk masalah ini.XXXX

Apakah ada bentuk geometris atau mungkin bentuk lain dari penjelasan yang mudah dimengerti mengapa multikolinieritas bermasalah dalam konteks regresi linier?


sumber
4
Pertanyaan yang sangat bagus. Cara terbaik untuk memahami sesuatu adalah dari berbagai arah penjelasan.
Tal Galili
1
Lihat juga terkait pertanyaan dan penjelasan visual stats.stackexchange.com/q/70899/3277
ttnphns

Jawaban:

89

Pertimbangkan kasus paling sederhana di mana mengalami regresi terhadap dan dan di mana dan berkorelasi sangat positif. Maka efek dari pada sulit untuk membedakan dari efek pada karena setiap kenaikan cenderung dikaitkan dengan peningkatan .YZ X Z X Y Z Y X ZXZXZXYZYXZ

Cara lain untuk melihat ini adalah dengan mempertimbangkan persamaan. Jika kita menulis , maka koefisien adalah peningkatan untuk setiap kenaikan unit sambil menahan konstan. Namun dalam praktiknya, seringkali tidak mungkin untuk mempertahankan konstan dan korelasi positif antara dan berarti bahwa kenaikan satuan biasanya disertai dengan beberapa peningkatan pada saat yang sama.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

Penjelasan serupa tetapi lebih rumit berlaku untuk bentuk lain dari multikolinieritas.

Rob Hyndman
sumber
20
+1 Kasus yang sangat patologis di mana menyoroti ini lebih lanjut. dan tidak bisa dibedakan. X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv
1
+1 Saya suka jawaban ini karena salah satu pertanyaan bantuan yang paling umum adalah mengapa maka adalah dan . Inferensi harus memperhitungkan input realistis. b1>0b2<0
muratoa
29

Saya pernah makan sushi sekali dan berpikir bahwa itu mungkin merupakan demonstrasi intuitif yang baik dari masalah yang terkondisi. Misalkan Anda ingin menunjukkan kepada seseorang pesawat menggunakan dua tongkat yang menyentuh pangkalan mereka.

Anda mungkin akan memegang tongkat ortogonal satu sama lain. Efek dari setiap jenis kegoyahan tangan Anda di pesawat menyebabkannya sedikit goyah di sekitar apa yang Anda harapkan untuk ditunjukkan kepada orang-orang, tetapi setelah mengawasi Anda sebentar, mereka mendapatkan ide bagus tentang pesawat apa yang ingin Anda peragakan.

Tetapi katakanlah Anda membawa ujung tongkat lebih dekat dan menyaksikan efek tangan Anda gemetar. Pesawat yang dibentuknya akan melenggang jauh lebih liar. Audiens Anda harus menonton lebih lama untuk mendapatkan gambaran yang baik tentang pesawat apa yang Anda coba tunjukkan.

Snackrifice
sumber
+1 Saya pikir ini yang paling langsung menjawab pertanyaan. Karena walaupun multikolinieritas memengaruhi interpretasi. Mengapa ini masalah imho adalah stabilitas dalam estimasi.
muratoa
+1 Untuk memposting komentar ini (dan hanya komentar ini yang pernah ada dalam sejarah Stackoverflow) di bawah nama pengguna Snackrifice.
stackoverflax
19

Pendekatan geometris adalah untuk mempertimbangkan kuadrat proyeksi setidaknya dari ke subruang yang direntang oleh .YX

Katakanlah Anda memiliki model:

E[Y|X]=β1X1+β2X2

Ruang estimasi kami adalah bidang yang ditentukan oleh vektor dan dan masalahnya adalah menemukan koordinat yang sesuai dengan yang akan menggambarkan vektor , proyeksi kuadrat terkecil ke bidang itu.X1X2(β1,β2)Y^Y

Sekarang anggaplah , yaitu mereka collinear. Kemudian, subruang yang ditentukan oleh dan hanyalah sebuah garis dan kami hanya memiliki satu derajat kebebasan. Jadi kami tidak dapat menentukan dua nilai dan saat kami diminta.X1=2X2X1X2β1β2

ars
sumber
2
Sudah lama saya memutakhirkan tetapi membaca kembali jawaban Anda, itu mengingatkan saya bahwa saya selalu menyukai Jawaban Plane untuk Pertanyaan Kompleks dari Christensen ( j.mp/atRp9w ).
chl
@ chl: keren, pasti akan memeriksanya. :)
ars
14

Dua orang mendorong sebuah batu ke atas bukit. Anda ingin tahu seberapa keras masing-masing mendorong. Misalkan Anda menyaksikan mereka mendorong bersama selama sepuluh menit dan batu itu bergerak 10 kaki. Apakah pria pertama melakukan semua pekerjaan dan yang kedua hanya memalsukannya? Atau sebaliknya? Atau 50-50? Karena kedua kekuatan bekerja pada waktu yang sama, Anda tidak dapat memisahkan kekuatan dari keduanya secara terpisah. Yang bisa Anda katakan adalah bahwa kekuatan gabungan mereka adalah 1 kaki per menit.

Sekarang bayangkan pria pertama mendorong dirinya sendiri sebentar, lalu sembilan menit dengan pria kedua, dan menit terakhir hanya mendorong pria kedua. Sekarang Anda dapat menggunakan perkiraan kekuatan di menit pertama dan terakhir untuk mengetahui kekuatan masing-masing orang secara terpisah. Meskipun mereka sebagian besar masih bekerja pada saat yang sama, fakta bahwa ada sedikit perbedaan memungkinkan Anda mendapatkan perkiraan kekuatan untuk masing-masing.

Jika Anda melihat setiap orang mendorong secara independen selama sepuluh menit penuh, itu akan memberi Anda perkiraan kekuatan yang lebih tepat daripada jika ada tumpang tindih besar dalam pasukan.

Saya pergi sebagai latihan bagi pembaca untuk memperluas kasus ini ke satu orang mendorong ke atas dan yang lainnya mendorong ke bawah (masih berfungsi).

Multikolinearitas sempurna mencegah Anda memperkirakan kekuatan secara terpisah; near multicolinearity memberi Anda kesalahan standar yang lebih besar.

Charlie
sumber
6

Cara saya berpikir tentang ini sebenarnya dalam hal informasi. Mengatakan masing-masing dan memiliki beberapa informasi tentang . Semakin banyak dan yang saling berkorelasi , semakin banyak konten informasi tentang dari dan yang serupa atau tumpang tindih, ke titik yang untuk berkorelasi sempurna dan , itu benar-benar konten informasi yang sama. Jika sekarang kita meletakkan dan dalam model (regresi) yang sama untuk menjelaskan , model mencoba "membagi" informasi yang (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) berisi tentang untuk masing-masing dan , dengan cara yang agak sewenang-wenang. Tidak ada cara yang benar-benar baik untuk membagi ini, karena setiap pemisahan informasi masih mengarah pada menjaga informasi total dari ( , ) dalam model (untuk 's berkorelasi sempurna , ini benar-benar adalah kasus tidak dapat diidentifikasi). Ini mengarah pada perkiraan individu yang tidak stabil untuk koefisien individu dan , meskipun jika Anda melihat nilai prediksi pada banyak berjalan dan perkiraan danX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, ini akan cukup stabil.

Abhijit
sumber
4

Intuisi awam saya (sangat) untuk ini adalah bahwa model OLS memerlukan tingkat "sinyal" tertentu dalam variabel X untuk mendeteksi itu memberikan prediksi "baik" untuk Y. Jika "sinyal" yang sama tersebar di banyak X (karena mereka berkorelasi), maka tidak ada X yang berkorelasi dapat memberikan cukup "bukti" (signifikansi statistik) bahwa itu adalah prediktor nyata.

Jawaban-jawaban (luar biasa) sebelumnya sangat membantu dalam menjelaskan mengapa itu terjadi.

Tal Galili
sumber
3

Asumsikan bahwa dua orang berkolaborasi dan menyelesaikan penemuan ilmiah. Mudah untuk memberi tahu kontribusi mereka yang unik (siapa yang melakukan apa) ketika keduanya adalah orang yang sama sekali berbeda (satu adalah orang teori dan yang lain pandai bereksperimen), sementara sulit untuk membedakan pengaruh unik mereka (koefisien dalam regresi) ketika mereka si kembar bertindak sama.

Muda
sumber
2

Jika dua regresi berkorelasi sempurna, koefisiennya tidak mungkin untuk dihitung; akan membantu untuk mempertimbangkan mengapa mereka akan sulit untuk ditafsirkan jika kita dapat menghitungnya . Bahkan, ini menjelaskan mengapa sulit untuk menafsirkan variabel yang tidak berkorelasi sempurna tetapi juga tidak benar-benar independen.

Misalkan variabel dependen kami adalah pasokan ikan setiap hari di New York, dan variabel independen kami mencakup satu untuk apakah hujan pada hari itu dan satu untuk jumlah umpan yang dibeli pada hari itu. Apa yang tidak kita sadari ketika kita mengumpulkan data adalah bahwa setiap kali hujan, nelayan tidak membeli umpan, dan setiap kali tidak, mereka membeli umpan dalam jumlah konstan. Jadi Bait dan Rain berkorelasi sempurna, dan ketika kita menjalankan regresi kita, kita tidak dapat menghitung koefisiennya. Pada kenyataannya, Bait dan Rain mungkin tidak berkorelasi sempurna, tetapi kami tidak ingin memasukkan keduanya sebagai regressor tanpa harus membersihkan endogenitasnya.

Mitch Flax
sumber
1

Saya pikir perangkap variabel dummy memberikan kemungkinan lain yang berguna untuk menggambarkan mengapa multikolinieritas merupakan masalah. Ingatlah bahwa itu muncul ketika kita memiliki set boneka yang konstan dan lengkap dalam model. Kemudian, jumlah boneka-boneka itu bertambah menjadi satu, konstan, jadi multikolinieritas.

Misalnya, boneka untuk pria dan satu untuk wanita:

yi=β0+β1Mani+β2Womani+ui

Interpretasi standar dari adalah perubahan yang diharapkan pada yang muncul dari mengubah dari 0 menjadi 1. Demikian juga, adalah perubahan yang diharapkan pada yang muncul dari perubahan dari 0 menjadi 1. Y M a n i β 2 Y W o m a n iβ1YManiβ2YWomani

Tapi, apa yang seharusnya mewakili ...? Itu adalah , jadi hasil yang diharapkan untuk orang yang bukan pria atau wanita ... mungkin aman untuk mengatakan bahwa untuk hampir semua set data yang akan Anda temui, itu tidak pertanyaan yang berguna untuk ditanyakan :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Christoph Hanck
sumber