Masuk membalik ketika menambahkan satu variabel lagi dalam regresi dan dengan besarnya jauh lebih besar

9

Pengaturan dasar:

model regresi: mana C adalah vektor variabel kontrol.y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵ

Saya tertarik pada dan berharap β 1 dan β 2 menjadi negatif. Namun, ada masalah multikolinieritas dalam model, koefisien korelasi diberikan oleh, corr ( x 1 , x 2 ) = 0,9345, corr ( x 1 , x 3 ) = 0,1765, corr ( x 2 , x 3 ) = 0,3019 .ββ1β2x1x2)=x1x3)=x2x3)=

Jadi dan x 2 sangat berkorelasi, dan mereka seharusnya memberikan informasi yang sama. Saya menjalankan tiga regresi: x1x2

  1. mengecualikan variabel; 2. mengecualikan variabel x 2 ; 3. model asli dengan x 1 dan x 2 .x1x2x1x2

Hasil:
Untuk regresi 1 dan 2, ini memberikan tanda yang diharapkan untuk dan β 1 masing-masing dan dengan besaran yang sama. Dan β 2 dan β 1 signifikan pada level 10% di kedua model setelah saya melakukan koreksi HAC dalam kesalahan standar. β 3 positif tetapi tidak signifikan pada kedua model.β2β1β2β1β3

Tetapi untuk 3, memiliki tanda yang diharapkan, tetapi tanda untuk β 2 positif dengan besarnya dua kali lebih besar dari β 1 pada nilai absolut. Dan kedua β 1 dan β 2 tidak signifikan. Selain itu, besarnya β 3 berkurang hampir setengahnya dibandingkan dengan regresi 1 dan 2.β1β2β1β1β2β3

Pertanyaanku adalah:

Mengapa pada 3, tanda menjadi positif dan jauh lebih besar dari β 1 dalam nilai absolut? Apakah ada alasan statistik bahwa β 2 dapat membalik dan memiliki magnitudo besar? Atau apakah karena model 1 dan 2 mengalami masalah variabel yang dihilangkan yang meningkat β 3 asalkan x 2 berpengaruh positif pada y? Tetapi kemudian dalam model regresi 1 dan 2, baik β 2 dan β 1 harus positif daripada negatif, karena efek total x 1 dan x 2 dalam model regresi 3 adalah positif.β2β1β2β3x2β2β1x1x2

ting
sumber

Jawaban:

8

Pikirkan contoh ini:

Kumpulkan dataset berdasarkan koin dalam kantong masyarakat, variabel y / respons adalah nilai total koin, variabel x1 adalah jumlah total koin dan x2 adalah jumlah koin yang tidak perempat (atau apa pun nilai terbesarnya) koin umum adalah untuk lokal).

Sangat mudah untuk melihat bahwa regresi dengan x1 atau x2 akan memberikan kemiringan positif, tetapi ketika memasukkan keduanya dalam model, kemiringan pada x2 akan menjadi negatif karena meningkatkan jumlah koin yang lebih kecil tanpa meningkatkan jumlah koin berarti mengganti koin besar dengan yang lebih kecil dan mengurangi nilai keseluruhan (y).

Hal yang sama dapat terjadi kapan saja Anda memiliki variabel x yang berkorelasi, tanda-tanda dapat dengan mudah berlawanan antara ketika suatu istilah dengan sendirinya dan di hadapan orang lain.

Greg Snow
sumber
3

Anda telah menjawab pertanyaan Anda sendiri - ada collinearity.

x1x2x1x2y

Peter Flom
sumber
β1x1+β2x2β2x2β1x1dalam model 2, karena korelasi berpasangan x1 x2 dengan x3 tidak tinggi (sebenarnya ini adalah bagian yang membingungkan saya). Tetapi karena korelasi dapat benar-benar berantakan, dan dalam praktiknya, saya seharusnya tidak mengharapkan ini karena model saya hanya merupakan perkiraan DGP dan korelasi dengan variabel-variabel lain penting.
ting
Jika Anda ingin memahami matematika ini, saya sangat merekomendasikan buku-buku karya David Belsley.
Peter Flom
Bagus, terima kasih banyak !!! Hanya meminta buku-buku dari perpustakaan :)
ting
2

Mengapa pada 3, tanda β2 menjadi positif dan jauh lebih besar dari β1 dalam nilai absolut? Apakah ada alasan statistik bahwa β2 dapat membalik dan memiliki magnitudo besar?

Jawaban sederhananya adalah tidak ada alasan yang mendalam.

Cara untuk memikirkannya adalah bahwa ketika pendekatan multikolinier mendekati sempurna, nilai spesifik yang Anda peroleh dari pemasangan menjadi semakin tergantung pada detail data yang semakin kecil. Jika Anda mengambil sampel jumlah data yang sama dari distribusi dasar yang sama dan kemudian cocok, Anda bisa mendapatkan nilai pas yang sama sekali berbeda.

oneloop
sumber