Formulasi regresi punggungan sebagai dibatasi versus dihukum: Bagaimana persamaannya?

10

Saya keliru memahami klaim tentang metode regresi linier yang saya lihat di berbagai tempat. Parameter masalah adalah:

Memasukkan:

N data sampel p+1 jumlah masing-masing terdiri dari "respons" jumlah yi dan p "prediktor" jumlah xij

Hasil yang diinginkan adalah "kecocokan linear yang baik" yang memprediksi respons berdasarkan pada prediksi di mana kecocokan yang baik memiliki perbedaan kecil antara prediksi dan respons yang diamati (di antara kriteria lain).

Output: koefisien p + 1 \ beta_j di mana \ beta_0 + \ sum_ {j = 1} ^ p x_ {ij} * \ beta_j adalah "kecocokan" untuk memprediksi jumlah respons dari jumlah prediktor. p+1βjβ0+j=1pxijβj

Saya bingung tentang pendekatan "regresi ridge" untuk masalah ini. Dalam "Elemen Pembelajaran Statistik" oleh Hastie, Tibshirani, dan Friedman halaman 67 regresi ridge dirumuskan dalam dua cara.

Pertama sebagai masalah optimasi terbatas :

argminβi=1N(yi(β0+j=1p(xijβj)))2
tunduk pada batasan
j=1pβi2t
untuk beberapa parameter positif t.

Kedua adalah masalah optimisasi yang dihukum : untuk beberapa parameter positif .

argminβ(λj=1pβj2)+i=1N(yi(β0+j=1p(xijβj)))2
λ

Teks mengatakan bahwa formulasi ini sama dan ada "korespondensi satu ke satu antara parameter dan ". Saya telah melihat klaim ini (dan yang serupa) di beberapa tempat selain buku ini. Saya pikir saya kehilangan sesuatu karena saya tidak melihat bagaimana formulasi itu setara seperti yang saya mengerti.λt

Pertimbangkan kasus di mana dan dengan , dan , . Memilih parameter formulasi dibatasi menjadi:N=2p=1y1=0x1,1=0y2=1x1,2=1t=2

argminβ0,β1(β02+(1(β0+β1))2)

diperluas ke

argminβ0,β1(2β02+2β0β12β0+β122β1+1)

Untuk mengatasi ini temukan solusi di mana turunan parsial sehubungan dengan dan nol: dengan solusi dan . Perhatikan bahwa sesuai kebutuhan.β0β1

4β0+2β12=0
2β0+2β12=0
β0=0β1=1β02+β12t

Bagaimana derivasi ini berhubungan dengan formulasi lain? Menurut penjelasan ada beberapa nilai unik sesuai dengan mana jika kita mengoptimalkan formulasi hukuman dari masalah, kita akan mendapatkan dan . Dalam hal ini formulir yang dikenai sanksi menjadi diperluas ke Untuk mengatasi ini cari solusi di mana sebagian derivatif dengan sehubungan denganλtβ0β1

argminβ0,β1(λ(β02+β12)+β02+(1(β0+β1))2)
argminβ0,β1(β02λ+2β02+2β0β12β0+β12λ+β122β1+1)
β0 dan nol: untuk persamaan ini saya mendapatkan solusinya Jika itu benar, satu-satunya cara untuk mendapatkan adalah dengan mengatur . Namun itu akan sama kita perlukan untuk , jadi apa yang mereka maksud dengan "korespondensi satu ke satu"?β1
2β0λ+4β0+2β12=0
2β0+2β1λ+2β12=0
β0=λ/(λ2+3λ+1)
β1=(λ+1)/((λ+1)(λ+2)1)
β0=0λ=0λt=4

Singkatnya, saya benar-benar bingung dengan dua presentasi dan saya tidak mengerti bagaimana mereka berhubungan satu sama lain. Saya tidak mengerti bagaimana Anda bisa mengoptimalkan satu formulir dan mendapatkan solusi yang sama untuk formulir lain atau bagaimana terkait dengan . Ini hanya satu contoh dari korespondensi semacam ini - ada yang lain untuk pendekatan lain seperti laso - dan saya tidak mengerti satupun dari mereka.λt

Seseorang tolong bantu saya.

pengguna101311
sumber
1
Terkait: stats.stackexchange.com/questions/190993 (lihat jawaban yang diterima).
amoeba
1
Tautan "terkait" menegaskan kembali korespondensi yang dibahas dalam pertanyaan tanpa menjawab pertanyaan ini atau contoh kasus yang ditunjukkan. Saya tidak berpikir itu menjawab pertanyaan ini.
Aaron Watters

Jawaban:

6

Kebingungan di sini berasal dari mencoba untuk bekerja dalam kisaran nilai atau mana tidak ada kendala pada regresi.tλ

Dalam contoh Anda, pada garis regresi yang sesuai dengan tepat jumlah kuadrat dari koefisien regresi adalah 1. Jadi nilai (atau nilai yang 1 atau lebih besar) tidak menempatkan kendala pada regresi. Dalam ruang nilai , seluruh regresi yang tidak dibatasi diwakili oleh . Tidak ada korespondensi satu-ke-satu antara dan dalam regresi yang tidak dibatasi ; semua nilai dari 1 atau lebih besar dalam hal ini sesuai dengan . Itu adalah wilayah yang Anda selidiki.t=2tλλ=0tλ tλ=0

Hanya nilai kurang dari 1 yang akan menempatkan kendala pada regresi, sesuai dengan nilai positif . Seperti jawaban yang diterima untuk halaman ini menunjukkan, korespondensi satu-ke-satu antara dan berlaku " ketika kendala mengikat ," dalam contoh Anda untuk nilai kurang dari 1.tλtλt

EdM
sumber
Dalam hal itu mereka harus menyatakan bahwa kendala harus mengikat. Maksud Anda, kami harus memiliki agar persamaannya valid? βj2=t
Aaron Watters
1
Dalam keadilan, saya tidak berpikir bahwa orang terlalu khawatir tentang detail optimasi terbatas ketika kendala tidak mengikat. Maka Anda hanya mendapatkan solusi kuadrat-terkecil. Ketika kendala mengikat optimasi harus memberikan hasil yang unik pada batas set kendala sehingga , memberikan satu-ke-satu kesetaraan dengan dalam keadaan itu. βj2=ttλ
EdM
+1. Jika batasannya tidak mengikat maka masih ada korespondensi antara dan tapi itu tidak satu-ke-satu: peta mengikat apa pun ke sebagaimana dihitung dengan benar oleh @ Harun. tλtλ=0
amoeba
FYI, saya seorang programmer. Penting untuk mengetahui kapan suatu metode tepat ketika Anda menulis program komputer. "Kendala harus mengikat" tampaknya dihilangkan dari banyak presentasi metode ini.
Aaron Watters
4

Regresi Ridge klasik ( Regulasi Tikhonov ) diberikan oleh:

argminx12xy22+λx22

Klaim di atas adalah bahwa masalah berikut ini setara:

argminx12xy22subject tox22t

Mari kita mendefinisikan sebagai solusi optimal dari masalah pertama dan sebagai solusi optimal dari masalah kedua.x^x~

Klaim kesetaraan berarti bahwa . Yaitu Anda selalu dapat memiliki sepasang dan sehingga solusi masalahnya sama.t,λ0:x^=x~
tλ0

Bagaimana kita bisa menemukan pasangan?
Nah, dengan menyelesaikan masalah dan melihat sifat-sifat solusinya.
Kedua masalah tersebut cembung dan halus sehingga harus membuat semuanya lebih sederhana.

Solusi untuk masalah pertama diberikan pada titik gradien hilang yang berarti:

x^y+2λx^=0

The KKT Kondisi negara-negara Masalah kedua:

x~y+2μx~=0

dan

μ(x~22t)=0

Persamaan terakhir menunjukkan bahwa atau .μ=0x~22=t

Perhatikan bahwa 2 persamaan dasar adalah setara.
Yaitu jika dan kedua persamaan ditahan. x^=x~μ=λ

Jadi itu artinya dalam kasus kita harus menetapkan yang berarti bahwa untuk cukup besar agar keduanya sama, kita harus mengatur .y22tμ=0tλ=0

Pada kasus lain, orang harus menemukan mana:μ

yt(I+2μI)1(I+2μI)1y=t

Ini pada dasarnya ketikax~22=t

Setelah Anda menemukan bahwa solusi akan bertabrakan.μ

Mengenai kasus , well, ia bekerja dengan ide yang sama. Satu-satunya perbedaan adalah kita tidak memiliki solusi yang tertutup sehingga memperoleh koneksi lebih sulit.L1

Lihatlah jawaban saya di StackExchange Cross Validated Q291962 dan StackExchange Signal Processing Q21730 - Signifikansi dalam Basis Pursuitλ .

Royi
sumber
Dari mana datangnya mu?
tatami
Di atas memecahkan 2 masalah yang berbeda. Karena yang pertama menggunakan saya menggunakan sebagai Pengali Lagrange untuk kendala ketidaksetaraan yang ke-2. λμ
Royi