Stabilitas beta dalam regresi linier dengan multi-collinearity tinggi?
Katakanlah dalam regresi linier, variabel dan memiliki multi-collinearity tinggi (korelasi sekitar 0,9).x 2
Kami khawatir tentang stabilitas koefisien sehingga kami harus memperlakukan multi-collinearity.
Solusi buku teks akan hanya membuang salah satu variabel.
Tetapi kami tidak ingin kehilangan informasi yang berguna hanya dengan membuang variabel.
Ada saran?
Jawaban:
Anda dapat mencoba pendekatan regresi ridge dalam kasus ketika matriks korelasi dekat dengan singular (yaitu variabel memiliki korelasi tinggi). Ini akan memberi Anda perkiraan .β
Satu-satunya pertanyaan adalah bagaimana memilih parameter regularisasi . Ini bukan masalah sederhana, meskipun saya sarankan untuk mencoba nilai yang berbeda.λ
Semoga ini membantu!
sumber
lm.ridge
rutin dalam paket MASS. Jika Anda memberikan serangkaian nilai untuk , misalnya, panggilan seperti , Anda akan mendapatkan kembali statistik validasi silang umum , dan dapat memplotnya dengan : untuk memilih minimum. λfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))
foo
plot(foo$GCV~foo$lambda)
Nah, ada satu metode ad hoc yang pernah saya gunakan sebelumnya. Saya tidak yakin apakah prosedur ini memiliki nama tetapi masuk akal secara intuitif.
Misalkan tujuan Anda adalah agar sesuai dengan model
di mana dua prediktor - - sangat berkorelasi. Seperti yang telah Anda tunjukkan, menggunakan keduanya dalam model yang sama dapat melakukan hal-hal aneh pada estimasi koefisien dan nilai . Alternatif lain adalah menyesuaikan model pXsaya, Zsaya hal
Maka sisa akan tidak berkorelasi dengan X i dan dapat, dalam beberapa hal, dianggap sebagai bagian dari Z i yang tidak dimasukkan oleh hubungan liniernya dengan X i . Kemudian, Anda dapat melanjutkan untuk menyesuaikan modelηsaya Xsaya Zsaya Xsaya
yang akan menangkap semua efek dari model pertama (dan akan, memang, memiliki sama persis dengan model pertama) tetapi prediktor tidak lagi collinear.R2
Sunting: OP telah meminta penjelasan mengapa residu tidak, secara definitif, memiliki korelasi sampel nol dengan prediktor ketika Anda menghilangkan intersep seperti yang mereka lakukan ketika intersep dimasukkan. Ini terlalu panjang untuk dikirim dalam komentar, jadi saya mengedit di sini. Derivasi ini tidak terlalu mencerahkan (sayangnya saya tidak bisa memberikan argumen intuitif yang masuk akal) tetapi ini menunjukkan apa yang diminta OP :
Ketika mencegat dihilangkan dalam regresi linier sederhana , β = Σ x i y i , jadiei=yi-xi∑xiyiβ^= ∑ xsayaysaya∑ x2saya . Korelasi sampel antaraxidaneisebanding dengan ¯ x e - ¯ x ¯ e di mana ¯ ⋅ menunjukkan rata-rata sampel dari kuantitas di bawah bilah. Saya sekarang akan menunjukkan ini belum tentu sama dengan nol.esaya= ysaya- xsaya∑ xsayaysaya∑ x2saya xsaya esaya
Pertama yang kita miliki
tapi
sumber
Saya suka kedua jawaban yang diberikan sejauh ini. Biarkan saya menambahkan beberapa hal.
Pilihan lain adalah Anda juga bisa menggabungkan variabel. Ini dilakukan dengan menstandarisasi keduanya (yaitu, mengubahnya menjadi skor-z), membuat rata-rata, dan kemudian menyesuaikan model Anda dengan hanya variabel komposit. Ini akan menjadi pendekatan yang baik ketika Anda yakin itu adalah dua ukuran berbeda dari konstruksi dasar yang sama. Dalam hal ini, Anda memiliki dua pengukuran yang terkontaminasi dengan kesalahan. Nilai true kemungkinan besar untuk variabel Anda benar-benarpeduli ada di antara mereka, sehingga rata-rata mereka memberikan perkiraan yang lebih akurat. Anda membakukan mereka terlebih dahulu untuk menempatkan mereka pada skala yang sama, sehingga masalah nominal tidak mencemari hasil (misalnya, Anda tidak ingin rata-rata beberapa pengukuran suhu jika ada yang Fahrenheit dan ada yang Celsius). Tentu saja, jika mereka sudah pada skala yang sama (misalnya, beberapa jajak pendapat publik yang sangat berkorelasi), Anda dapat melewati langkah itu. Jika Anda berpikir salah satu variabel Anda mungkin lebih akurat daripada yang lain, Anda bisa melakukan rata-rata tertimbang (mungkin menggunakan kebalikan dari kesalahan pengukuran).
Saya setuju bahwa regresi ridge bisa dibilang lebih baik, karena memungkinkan Anda untuk menggunakan variabel yang Anda maksudkan dan cenderung menghasilkan beta yang sangat dekat dengan nilai sebenarnya (meskipun mereka akan bias - lihat di sini atau di sini untuk informasi lebih lanjut ). Meskipun demikian, saya pikir juga memiliki dua kelemahan potensial: Lebih rumit (membutuhkan kecanggihan statistik yang lebih besar), dan model yang dihasilkan lebih sulit untuk ditafsirkan, menurut pendapat saya.
Saya kumpulkan bahwa mungkin pendekatan akhir adalah menyesuaikan model persamaan struktural. Itu karena itu akan memungkinkan Anda untuk merumuskan set tepat hubungan yang Anda yakini operatif, termasuk variabel laten. Namun, saya tidak tahu SEM cukup baik untuk mengatakan apa pun di sini, selain menyebutkan kemungkinan. (Saya juga menduga itu akan berlebihan dalam situasi yang Anda gambarkan hanya dengan dua kovariat.)
sumber