Bagaimana cara mencari koefisien regresi

14

Dalam regresi ridge, fungsi tujuan harus diminimalkan adalah:

RSS+λβj2.

Bisakah ini dioptimalkan menggunakan metode pengali Lagrange? Atau apakah itu diferensiasi langsung?

Minaj
sumber
1
Apa hubungan antara judul (yang berfokus pada λ ) dan pertanyaan (yang tampaknya hanya tentang βj )? Saya khawatir bahwa "dioptimalkan" dapat memiliki interpretasi yang jelas berbeda tergantung pada variabel mana yang dianggap yang dapat bervariasi dan mana yang harus diperbaiki.
Whuber
1
terima kasih memodifikasi pertanyaan. Saya telah membaca bahwa λ ditemukan oleh validasi silang - tetapi saya percaya itu berarti Anda sudah memiliki βj dan menggunakan data yang berbeda untuk menemukan terbaik. λPertanyaannya adalah - bagaimana Anda menemukan βj di tempat pertama? Kapan λ tidak diketahui?
Minaj

Jawaban:

22

Ada dua formulasi untuk masalah punggungan. Yang pertama adalah

βR=argminβ(yXβ)(yXβ)

tunduk pada

jβj2s.

Formulasi ini menunjukkan batasan ukuran pada koefisien regresi. Perhatikan apa yang tersirat dari batasan ini; kami memaksa koefisien untuk berbaring di bola di sekitar titik asal dengan jari-jari .s

Formulasi kedua adalah masalah Anda

βR=argminβ(yXβ)(yXβ)+λβj2

yang dapat dipandang sebagai formulasi pengali Largrange. Perhatikan bahwa di sini adalah parameter penyetelan dan nilai yang lebih besar akan menyebabkan penyusutan yang lebih besar. Anda dapat melanjutkan untuk membedakan ekspresi sehubungan dengan β dan mendapatkan penaksir ridge yang terkenalλβ

(1)βR=(XX+λI)1Xy

Kedua formulasi sepenuhnya sama , karena ada korespondensi satu-ke-satu antara dan λ .sλ

Biarkan saya menguraikan sedikit tentang itu. Bayangkan bahwa Anda berada di ideal orthogonal kasus, . Ini adalah situasi yang sangat disederhanakan dan tidak realistis, tetapi kita dapat menyelidiki estimator sedikit lebih dekat jadi bersabarlah. Pertimbangkan apa yang terjadi pada persamaan (1). Estimator punggungan dikurangi menjadiXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

seperti dalam kasus ortogonal, estimator OLS diberikan oleh . Melihat komponen ini sekarang kita dapatkanβOLS=Xy

(2)βR=βOLS1+λ

Perhatikan bahwa sekarang penyusutannya konstan untuk semua koefisien. Ini mungkin tidak terus dalam kasus umum dan memang dapat ditunjukkan bahwa susut akan berbeda secara luas jika ada degeneracies di matriks.XX

Tetapi mari kita kembali ke masalah optimasi yang dibatasi. Menurut teori KKT , syarat yang diperlukan untuk optimalitas adalah

λ(βR,j2s)=0

sehingga baik atau Σ ß 2λ=0(dalam hal ini kita mengatakan bahwa kendala yang mengikat). Jikaλ=0maka tidak ada penalti dan kami kembali dalam situasi OLS biasa. Anggaplah bahwa batasannya mengikat dan kita berada dalam situasi kedua. Dengan menggunakan rumus dalam (2), kita milikiβR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

dari mana kita dapatkan

λ=βOLS,j2s1

hubungan satu-ke-satu yang sebelumnya diklaim. Saya berharap ini lebih sulit untuk dibangun dalam kasus non-ortogonal tetapi hasilnya tetap ada.

Lihat lagi (2) dan Anda akan melihat kita masih melewatkan . Untuk mendapatkan nilai optimal untuk itu, Anda dapat menggunakan validasi silang atau melihat jejak bubungan. Metode terakhir melibatkan membangun urutan λ dalam (0,1) dan melihat bagaimana estimasi berubah. Anda kemudian memilih λ yang menstabilkan mereka. Metode ini disarankan dalam referensi kedua di bawah ini dan merupakan yang tertua.λλλ

Referensi

Hoerl, Arthur E., dan Robert W. Kennard. "Regresi Ridge: Estimasi bias untuk masalah yang bukan ortogonal." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E., dan Robert W. Kennard. "Regresi punggungan: aplikasi untuk masalah-masalah nonorthogonal." Technometrics 12.1 (1970): 69-82.

JohnK
sumber
2
Regresi @Minaj Ridge memiliki penyusutan konstan untuk semua koefisien (selain intersep). Itu sebabnya hanya ada satu pengali.
JohnK
2
@amoeba Ini adalah saran dari Hoerl dan Kennard, orang-orang yang memperkenalkan regresi ridge pada 1970-an. Berdasarkan pengalaman mereka - dan saya - koefisien akan stabil dalam interval itu bahkan dengan tingkat multikolinearitas yang ekstrim. Tentu saja, ini adalah strategi empiris dan karenanya tidak dijamin untuk bekerja setiap saat.
JohnK
2
Anda juga bisa melakukan metode observasi semu dan mendapatkan estimasi dengan tidak lebih rumit daripada program regresi kuadrat lurus. Anda juga dapat menyelidiki efek mengubah dengan cara yang serupa. λ
Glen_b -Reinstate Monica
2
@amoeba Memang benar bahwa punggungan tidak invarian skala, itu sebabnya itu adalah praktik umum untuk membakukan data sebelumnya. Saya telah menyertakan referensi yang relevan jika Anda ingin melihatnya. Mereka sangat menarik dan tidak terlalu teknis.
JohnK
2
@JohnK dalam efek ridge regression menyusut setiap dengan jumlah yang berbeda, sehingga susutnya tidak konstan walaupun hanya ada satu parameter susut λ . βλ
Frank Harrell
4

λβ^rmspentraceλ

Frank Harrell
sumber
1
λ
Saya belum mempelajarinya. LOOCV membutuhkan banyak perhitungan.
Frank Harrell
Tidak jika rumus eksplisit digunakan: stats.stackexchange.com/questions/32542 .
Amuba kata Reinstate Monica
1
Formula itu bekerja untuk kasus khusus OLS, bukan untuk kemungkinan maksimum secara umum. Tetapi ada rumus perkiraan menggunakan sisa skor. Saya menyadari bahwa kita terutama berbicara tentang OLS dalam diskusi ini.
Frank Harrell
1

Saya tidak melakukannya secara analitis, melainkan secara numerik. Saya biasanya memplot RMSE vs λ seperti:

enter image description here

Gambar 1. RMSE dan konstanta λ atau alpha.

Lennart
sumber
λβjλ ?
Minaj