Di bawah kondisi apa regresi ridge mampu memberikan peningkatan dibandingkan regresi kuadrat terkecil biasa?

16

Ridge perkiraan regresi parameter β dalam model linear y=Xβ oleh β λ = ( XX + λ I ) - 1 Xy , di mana λ adalah parameter regularisasi. Sudah diketahui bahwa sering berkinerja lebih baik daripada regresi OLS (dengan λ = 0 ) ketika ada banyak prediktor yang berkorelasi.

β^λ=(XX+λI)1Xy,
λλ=0

Teorema eksistensi untuk regresi ridge mengatakan bahwa ada selalu ada parameter λ>0 sehingga rata-kuadrat-kesalahan β λ secara ketat lebih kecil dari rata-kuadrat-kesalahan dari OLS estimasi β O L S = β 0 . Dengan kata lain, nilai optimal λ selalu tidak nol. Ini tampaknya pertama kali terbukti di Hoerl dan Kennard, 1970 dan diulangi dalam banyak catatan kuliah yang saya temukan online (misalnya di sini dan di sini ). Pertanyaan saya adalah tentang asumsi teorema ini:β^λβ^OLS=β^0λ

  1. Apakah ada asumsi tentang matriks kovarians XX ?

  2. Adakah asumsi tentang dimensi X ?

Secara khusus, apakah teorema itu masih benar jika prediktornya ortogonal (yaitu XX diagonal), atau bahkan jika XX=I ? Dan apakah masih benar jika hanya ada satu atau dua prediktor (katakanlah, satu prediktor dan intersep)?

Jika teorema tidak membuat asumsi seperti itu dan tetap benar bahkan dalam kasus-kasus ini, maka mengapa regresi ridge biasanya direkomendasikan hanya dalam kasus prediktor berkorelasi, dan tidak pernah (?) Direkomendasikan untuk regresi sederhana (yaitu tidak berganda)?


Ini terkait dengan pertanyaan saya tentang pandangan Unified pada susut: apa hubungan (jika ada) antara paradoks Stein, regresi ridge, dan efek acak dalam model campuran? , tetapi tidak ada jawaban yang menjelaskan poin ini sampai sekarang.

amuba kata Reinstate Monica
sumber
1
Tampaknya semua kecuali pertanyaan terakhir secara langsung dibahas dalam makalah Hoerl & Kennard, terutama dalam kalimat pertama Pendahuluan dan kalimat pertama Kesimpulan. Pertanyaan terakhir dapat dijawab dengan mencatat kovarians antara vektor konstan dan setiap prediktor tunggal selalu nol, yang memungkinkan seseorang (dalam cara yang standar) untuk mengurangi ke 1 × 1 matriks. XX1×1
whuber
1
Terima kasih, @whuber. Saya percaya bahwa makalah Hoerl & Kennard menjawab pertanyaan saya (setidaknya yang teknis) - orang harus dapat mengikuti bukti dan memeriksa asumsi (saya belum melakukannya). Tapi saya tidak sepenuhnya yakin dengan kalimat yang Anda maksud. Bagaimana kalimat pertama Pengantar terkait dengan pertanyaan saya? Kalimat pertama Kesimpulan memang menunjukkan bahwa jika memiliki spektrum seragam (misalnya sama dengan I ) maka teorema tidak berlaku. Tetapi saya tidak 100% yakin, karena saya tidak melihat asumsi ini secara eksplisit dinyatakan sebelum bukti. XXI
Amoeba berkata Reinstate Monica
Lihat jenis pertanyaan apa yang dapat ditanyakan oleh pengguna tingkat tinggi (yang biasanya hanya menjawabnya ) (dan juga untuk pertanyaan terkait lainnya yang mengirim saya ke sini stats.stackexchange.com/questions/122062/… !
javadba

Jawaban:

11

Jawaban untuk 1 dan 2 adalah tidak, tetapi diperlukan kehati-hatian dalam menafsirkan teorema keberadaan.

Varians dari Penaksir Ridge

Biarkan menjadi estimasi ridge di bawah penalti k , dan biarkan β menjadi parameter sebenarnya untuk model Y = X β +β^kβ . Mari λ 1 , ... , λ p menjadi nilai eigen dari X T X . Dari persamaan Hoerl & Kennard 4.2-4.5, risikonya, (dalam halnorma L 2 kesalahan yang diharapkan) adalahY=Xβ+ϵλ1,,λpXTX
L2

mana sejauh yang saya tahu, ( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. Mereka berkomentar bahwaγ1memiliki interpretasi varian produk dalam ^ β -β, sedangkanγ2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2 adalah produk dalam bias.

Misalkan , lalu R ( k ) = p σ 2 + k 2 β T βXTX=Ip Misalkan R(k)=2k

R(k)=pσ2+k2βTβ(1+k)2.
menjadi turunan dari risiko w / r / tk. Karena limk0+R(k)=-2pσ2<0, kami menyimpulkan bahwa ada beberapak>0sehinggaR(k)<R(0).
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

Para penulis berkomentar bahwa ortogonalitas adalah yang terbaik yang dapat Anda harapkan dalam hal risiko pada , dan sebagai jumlah kondisi darik=0 meningkat, lim k 0 + R ' ( k ) pendekatan - .XTXlimk0+R(k)

Komentar

Tampaknya ada paradoks di sini, dalam hal jika dan X adalah konstan, maka kita hanya memperkirakan rata-rata dari urutan Normal ( β , σp=1Xvariabel 2 ) , dan kita tahu bahwa estimasi vanilla bias dapat diterima di kasus ini. Ini diselesaikan dengan memperhatikan bahwa di atas penalaran hanya menyediakan bahwa nilai meminimalkan dari k ada untuk tetap β T β . Tetapi untuk setiap k , kita dapat membuat risiko meledak dengan membuat β T β menjadi besar, jadi argumen ini saja tidak menunjukkan penerimaan untuk estimasi punggungan.(β,σ2)kβTβkβTβ

Mengapa regresi ridge biasanya direkomendasikan hanya dalam kasus prediktor yang berkorelasi?

Derivasi risiko H&K menunjukkan bahwa jika kita memikirkannya βTβXTXβEYX dicurigai - matriks kovarians besar adalah gejala dari itu.

Tetapi jika tujuan Anda semata-mata prediksi, kekhawatiran inferensial tidak lagi berlaku, dan Anda memiliki argumen yang kuat untuk menggunakan beberapa jenis estimator penyusutan.

Andrew M
sumber
2
βkkk=0
2
XX
3
β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
3
λ