Dalam regresi ridge, fungsi tujuan harus diminimalkan adalah:
Bisakah ini dioptimalkan menggunakan metode pengali Lagrange? Atau apakah itu diferensiasi langsung?
Dalam regresi ridge, fungsi tujuan harus diminimalkan adalah:
Bisakah ini dioptimalkan menggunakan metode pengali Lagrange? Atau apakah itu diferensiasi langsung?
Jawaban:
Ada dua formulasi untuk masalah punggungan. Yang pertama adalah
tunduk pada
Formulasi ini menunjukkan batasan ukuran pada koefisien regresi. Perhatikan apa yang tersirat dari batasan ini; kami memaksa koefisien untuk berbaring di bola di sekitar titik asal dengan jari-jari .s√
Formulasi kedua adalah masalah Anda
yang dapat dipandang sebagai formulasi pengali Largrange. Perhatikan bahwa di sini adalah parameter penyetelan dan nilai yang lebih besar akan menyebabkan penyusutan yang lebih besar. Anda dapat melanjutkan untuk membedakan ekspresi sehubungan dengan β dan mendapatkan penaksir ridge yang terkenalλ β
Kedua formulasi sepenuhnya sama , karena ada korespondensi satu-ke-satu antara dan λ .s λ
Biarkan saya menguraikan sedikit tentang itu. Bayangkan bahwa Anda berada di ideal orthogonal kasus, . Ini adalah situasi yang sangat disederhanakan dan tidak realistis, tetapi kita dapat menyelidiki estimator sedikit lebih dekat jadi bersabarlah. Pertimbangkan apa yang terjadi pada persamaan (1). Estimator punggungan dikurangi menjadiX′X=I
seperti dalam kasus ortogonal, estimator OLS diberikan oleh . Melihat komponen ini sekarang kita dapatkanβOLS=X′y
Perhatikan bahwa sekarang penyusutannya konstan untuk semua koefisien. Ini mungkin tidak terus dalam kasus umum dan memang dapat ditunjukkan bahwa susut akan berbeda secara luas jika ada degeneracies di matriks.X′X
Tetapi mari kita kembali ke masalah optimasi yang dibatasi. Menurut teori KKT , syarat yang diperlukan untuk optimalitas adalah
sehingga baik atau Σ ß 2λ=0 (dalam hal ini kita mengatakan bahwa kendala yang mengikat). Jikaλ=0maka tidak ada penalti dan kami kembali dalam situasi OLS biasa. Anggaplah bahwa batasannya mengikat dan kita berada dalam situasi kedua. Dengan menggunakan rumus dalam (2), kita miliki∑β2R,j−s=0 λ=0
dari mana kita dapatkan
hubungan satu-ke-satu yang sebelumnya diklaim. Saya berharap ini lebih sulit untuk dibangun dalam kasus non-ortogonal tetapi hasilnya tetap ada.
Lihat lagi (2) dan Anda akan melihat kita masih melewatkan . Untuk mendapatkan nilai optimal untuk itu, Anda dapat menggunakan validasi silang atau melihat jejak bubungan. Metode terakhir melibatkan membangun urutan λ dalam (0,1) dan melihat bagaimana estimasi berubah. Anda kemudian memilih λ yang menstabilkan mereka. Metode ini disarankan dalam referensi kedua di bawah ini dan merupakan yang tertua.λ λ λ
Referensi
sumber
rms
pentrace
sumber
Saya tidak melakukannya secara analitis, melainkan secara numerik. Saya biasanya memplot RMSE vs λ seperti:
Gambar 1. RMSE dan konstanta λ atau alpha.
sumber