Ridge perkiraan regresi parameter dalam model linear oleh β λ = ( X ⊤ X + λ I ) - 1 X ⊤ y , di mana λ adalah parameter regularisasi. Sudah diketahui bahwa sering berkinerja lebih baik daripada regresi OLS (dengan λ = 0 ) ketika ada banyak prediktor yang berkorelasi.
Teorema eksistensi untuk regresi ridge mengatakan bahwa ada selalu ada parameter sehingga rata-kuadrat-kesalahan β λ secara ketat lebih kecil dari rata-kuadrat-kesalahan dari OLS estimasi β O L S = β 0 . Dengan kata lain, nilai optimal λ selalu tidak nol. Ini tampaknya pertama kali terbukti di Hoerl dan Kennard, 1970 dan diulangi dalam banyak catatan kuliah yang saya temukan online (misalnya di sini dan di sini ). Pertanyaan saya adalah tentang asumsi teorema ini:
Apakah ada asumsi tentang matriks kovarians ?
Adakah asumsi tentang dimensi ?
Secara khusus, apakah teorema itu masih benar jika prediktornya ortogonal (yaitu diagonal), atau bahkan jika ? Dan apakah masih benar jika hanya ada satu atau dua prediktor (katakanlah, satu prediktor dan intersep)?
Jika teorema tidak membuat asumsi seperti itu dan tetap benar bahkan dalam kasus-kasus ini, maka mengapa regresi ridge biasanya direkomendasikan hanya dalam kasus prediktor berkorelasi, dan tidak pernah (?) Direkomendasikan untuk regresi sederhana (yaitu tidak berganda)?
Ini terkait dengan pertanyaan saya tentang pandangan Unified pada susut: apa hubungan (jika ada) antara paradoks Stein, regresi ridge, dan efek acak dalam model campuran? , tetapi tidak ada jawaban yang menjelaskan poin ini sampai sekarang.
sumber
Jawaban:
Jawaban untuk 1 dan 2 adalah tidak, tetapi diperlukan kehati-hatian dalam menafsirkan teorema keberadaan.
Varians dari Penaksir Ridge
Biarkan menjadi estimasi ridge di bawah penalti k , dan biarkan β menjadi parameter sebenarnya untuk model Y = X β +β∗^ k β . Mari λ 1 , ... , λ p menjadi nilai eigen dari X T X .
Dari persamaan Hoerl & Kennard 4.2-4.5, risikonya, (dalam halnorma L 2 kesalahan yang diharapkan) adalahY=Xβ+ϵ λ1,…,λp XTX
L2
mana sejauh yang saya tahu, ( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. Mereka berkomentar bahwaγ1memiliki interpretasi varian produk dalam ^ β ∗ -β, sedangkanγ2
Misalkan , lalu R ( k ) = p σ 2 + k 2 β T βXTX=Ip
Misalkan
R′(k)=2k
Para penulis berkomentar bahwa ortogonalitas adalah yang terbaik yang dapat Anda harapkan dalam hal risiko pada , dan sebagai jumlah kondisi darik=0 meningkat, lim k → 0 + R ' ( k ) pendekatan - ∞ .XTX limk→0+R′(k) −∞
Komentar
Tampaknya ada paradoks di sini, dalam hal jika dan X adalah konstan, maka kita hanya memperkirakan rata-rata dari urutan Normal ( β , σp=1 X variabel 2 ) , dan kita tahu bahwa estimasi vanilla bias dapat diterima di kasus ini. Ini diselesaikan dengan memperhatikan bahwa di atas penalaran hanya menyediakan bahwa nilai meminimalkan dari k ada untuk tetap β T β . Tetapi untuk setiap k , kita dapat membuat risiko meledak dengan membuat β T β menjadi besar, jadi argumen ini saja tidak menunjukkan penerimaan untuk estimasi punggungan.(β,σ2) k βTβ k βTβ
Mengapa regresi ridge biasanya direkomendasikan hanya dalam kasus prediktor yang berkorelasi?
Derivasi risiko H&K menunjukkan bahwa jika kita memikirkannyaβTβ XTX β EY X dicurigai - matriks kovarians besar adalah gejala dari itu.
Tetapi jika tujuan Anda semata-mata prediksi, kekhawatiran inferensial tidak lagi berlaku, dan Anda memiliki argumen yang kuat untuk menggunakan beberapa jenis estimator penyusutan.
sumber