Saya belajar tentang regresi ridge dan tahu bahwa regresi ridge cenderung bekerja lebih baik dengan adanya multikolinieritas. Saya bertanya-tanya mengapa ini benar? Entah jawaban intuitif atau matematika akan memuaskan (kedua jenis jawaban akan lebih memuaskan).
Juga, saya tahu bahwa selalu dapat diperoleh, tetapi seberapa baik ridge regression bekerja di hadapan collinearity yang tepat (satu variabel independen adalah fungsi linear dari yang lain)?
multicollinearity
ridge-regression
TrynnaDoStat
sumber
sumber
Jawaban:
Pertimbangkan kasus sederhana dari 2 variabel prediktor ( , ). Jika tidak ada atau sedikit kolinearitas dan penyebaran yang baik di kedua prediktor, maka kami menyesuaikan pesawat ke data (x 2 yx1 x2 y adalah dimensi ke-3) dan seringkali ada bidang "terbaik" yang sangat jelas. Tetapi dengan colinearity hubungan tersebut benar-benar garis melalui ruang 3 dimensi dengan data yang tersebar di sekitarnya. Tetapi rutinitas regresi mencoba menyesuaikan sebuah bidang dengan garis, jadi ada sejumlah bidang yang tak terbatas yang bersilangan sempurna dengan garis itu, bidang mana yang dipilih tergantung pada titik-titik yang berpengaruh dalam data, ubah salah satu titik tersebut sedikit saja dan pesawat pas "terbaik" sedikit berubah. Apa yang dilakukan regresi ridge adalah menarik bidang yang dipilih ke arah model yang lebih sederhana / saner (nilai bias menuju 0). Pikirkan karet gelang dari titik asal (0,0,0) ke bidang yang menarik bidang ke arah 0 sementara data akan menariknya untuk kompromi yang bagus.
sumber