Misalkan .
Kita tidak tahu persis, hanya korelasinya dengan masing-masing prediktor, .
Solusi kuadrat-terkecil (OLS) adalah dan tidak ada masalah.
Tapi anggaplah mendekati singular (multicollinearity), dan Anda perlu memperkirakan parameter ridge yang optimal. Semua metode tampaknya membutuhkan nilai tepat .
Apakah ada metode alternatif ketika hanya yang diketahui?
regression
multicollinearity
Perasaan
sumber
sumber
Jawaban:
Ini pertanyaan yang menarik. Anehnya, dimungkinkan untuk melakukan sesuatu berdasarkan asumsi tertentu, tetapi ada potensi hilangnya informasi tentang varian residual. Tergantung padaX berapa banyak yang hilang.
Mari kita pertimbangkan dekomposisi nilai singular berikut dari dengan dan matriks dengan kolom ortonormal, matriks diagonal dengan nilai singular positif di diagonal dan a matriks ortogonal. Kemudian kolom membentuk basis ortonormal untuk ruang kolom dan adalah vektor koefisien untuk proyeksi ke ruang kolom ini ketika diperluas dalam X U n × p D d 1 ≥ d 2 ≥ . . . ≥ d p > 0 VX=UDVt X U n×p D d1≥d2≥...≥dp>0 V p×p U X
Karena prediktor regresi ridge untuk diberikan dapat dihitung sebagai kita melihat bahwa koefisien untuk prediktor regresi ridge dalam basis kolom adalah Sekarang kita membuat asumsi distribusi bahwa memiliki rata-rata dimensi dan matriks kovarian . Maka memiliki -dimensi rata-rata dan matriks kovarian . Jika kita membayangkan seorang yang mandiriλ
Dengan perhitungan standar Di sini dikenal sebagai derajat kebebasan efektif untuk regresi ridge dengan parameter . Estimator tidak bias adalah df(λ)λE| | Z-Z| | 2err(λ)=| | Z-Z| | 2=p∑i=1(1-d2i
Kami menggabungkan ini dengan estimator (tidak bias) dari mengingat kita tahu , yang kemudian perlu kita kurangi. Jelas, ini hanya dapat dilakukan jika kita tahu atau memiliki perkiraan yang masuk akal atau estimator dari .E | | Z New - Z | | 2 σ 2 σ 2 σ 2
Memperkirakan bisa lebih bermasalah. Dimungkinkan untuk menunjukkan bahwa Jadi jika dimungkinkan untuk memilih sangat kecil sehingga bias kuadrat dapat diabaikan, kita dapat mencoba memperkirakan sebagai Jika akan pekerjaan ini tergantung banyak pada . E | | Z - Z | | 2 = σ 2 ( p - p Σ i = 1 d 2 iσ2 λσ2σ2=1
Untuk beberapa detail, lihat Bagian 3.4.1 dan Bab 7 di ESL atau mungkin Bab 2 yang lebih baik di GAM .
sumber
Tetapkan seperti pada pertanyaan dan untuk berbagai parameter dan set dari label sampel. Kemudian dapat dihitung karena tidak dapat digunakan saat memperluas keduanya norma.β β(λ,K)=[(XTX)KK+λI]−1(XTY)K λ K e(λ,K):=∥Xβ(λ,K)−Y∥2−∥Xβ−Y∥2 ∥Y∥2
Ini mengarah ke algoritma berikut:
sumber