Saya keliru memahami klaim tentang metode regresi linier yang saya lihat di berbagai tempat. Parameter masalah adalah:
Memasukkan:
data sampel jumlah masing-masing terdiri dari "respons" jumlah dan "prediktor" jumlah
Hasil yang diinginkan adalah "kecocokan linear yang baik" yang memprediksi respons berdasarkan pada prediksi di mana kecocokan yang baik memiliki perbedaan kecil antara prediksi dan respons yang diamati (di antara kriteria lain).
Output: koefisien p + 1 \ beta_j di mana \ beta_0 + \ sum_ {j = 1} ^ p x_ {ij} * \ beta_j adalah "kecocokan" untuk memprediksi jumlah respons dari jumlah prediktor.
Saya bingung tentang pendekatan "regresi ridge" untuk masalah ini. Dalam "Elemen Pembelajaran Statistik" oleh Hastie, Tibshirani, dan Friedman halaman 67 regresi ridge dirumuskan dalam dua cara.
Pertama sebagai masalah optimasi terbatas :
Kedua adalah masalah optimisasi yang dihukum : untuk beberapa parameter positif .
Teks mengatakan bahwa formulasi ini sama dan ada "korespondensi satu ke satu antara parameter dan ". Saya telah melihat klaim ini (dan yang serupa) di beberapa tempat selain buku ini. Saya pikir saya kehilangan sesuatu karena saya tidak melihat bagaimana formulasi itu setara seperti yang saya mengerti.
Pertimbangkan kasus di mana dan dengan , dan , . Memilih parameter formulasi dibatasi menjadi:
diperluas ke
Untuk mengatasi ini temukan solusi di mana turunan parsial sehubungan dengan dan nol: dengan solusi dan . Perhatikan bahwa sesuai kebutuhan.
Bagaimana derivasi ini berhubungan dengan formulasi lain? Menurut penjelasan ada beberapa nilai unik sesuai dengan mana jika kita mengoptimalkan formulasi hukuman dari masalah, kita akan mendapatkan dan . Dalam hal ini formulir yang dikenai sanksi menjadi diperluas ke Untuk mengatasi ini cari solusi di mana sebagian derivatif dengan sehubungan dengan
Singkatnya, saya benar-benar bingung dengan dua presentasi dan saya tidak mengerti bagaimana mereka berhubungan satu sama lain. Saya tidak mengerti bagaimana Anda bisa mengoptimalkan satu formulir dan mendapatkan solusi yang sama untuk formulir lain atau bagaimana terkait dengan . Ini hanya satu contoh dari korespondensi semacam ini - ada yang lain untuk pendekatan lain seperti laso - dan saya tidak mengerti satupun dari mereka.
Seseorang tolong bantu saya.
sumber
Jawaban:
Kebingungan di sini berasal dari mencoba untuk bekerja dalam kisaran nilai atau mana tidak ada kendala pada regresi.t λ
Dalam contoh Anda, pada garis regresi yang sesuai dengan tepat jumlah kuadrat dari koefisien regresi adalah 1. Jadi nilai (atau nilai yang 1 atau lebih besar) tidak menempatkan kendala pada regresi. Dalam ruang nilai , seluruh regresi yang tidak dibatasi diwakili oleh . Tidak ada korespondensi satu-ke-satu antara dan dalam regresi yang tidak dibatasi ; semua nilai dari 1 atau lebih besar dalam hal ini sesuai dengan . Itu adalah wilayah yang Anda selidiki.t=2 t λ λ=0 t λ t λ=0
Hanya nilai kurang dari 1 yang akan menempatkan kendala pada regresi, sesuai dengan nilai positif . Seperti jawaban yang diterima untuk halaman ini menunjukkan, korespondensi satu-ke-satu antara dan berlaku " ketika kendala mengikat ," dalam contoh Anda untuk nilai kurang dari 1.t λ t λ t
sumber
Regresi Ridge klasik ( Regulasi Tikhonov ) diberikan oleh:
Klaim di atas adalah bahwa masalah berikut ini setara:
Mari kita mendefinisikan sebagai solusi optimal dari masalah pertama dan sebagai solusi optimal dari masalah kedua.x^ x~
Klaim kesetaraan berarti bahwa . Yaitu Anda selalu dapat memiliki sepasang dan sehingga solusi masalahnya sama.∀t,∃λ≥0:x^=x~
t λ≥0
Bagaimana kita bisa menemukan pasangan?
Nah, dengan menyelesaikan masalah dan melihat sifat-sifat solusinya.
Kedua masalah tersebut cembung dan halus sehingga harus membuat semuanya lebih sederhana.
Solusi untuk masalah pertama diberikan pada titik gradien hilang yang berarti:
The KKT Kondisi negara-negara Masalah kedua:
dan
Persamaan terakhir menunjukkan bahwa atau .μ=0 ∥x~∥22=t
Perhatikan bahwa 2 persamaan dasar adalah setara.x^=x~ μ=λ
Yaitu jika dan kedua persamaan ditahan.
Jadi itu artinya dalam kasus kita harus menetapkan yang berarti bahwa untuk cukup besar agar keduanya sama, kita harus mengatur .∥y∥22≤t μ=0 t λ=0
Pada kasus lain, orang harus menemukan mana:μ
Ini pada dasarnya ketika∥x~∥22=t
Setelah Anda menemukan bahwa solusi akan bertabrakan.μ
Mengenai kasus , well, ia bekerja dengan ide yang sama. Satu-satunya perbedaan adalah kita tidak memiliki solusi yang tertutup sehingga memperoleh koneksi lebih sulit.L1
Lihatlah jawaban saya di StackExchange Cross Validated Q291962 dan StackExchange Signal Processing Q21730 - Signifikansi dalam Basis Pursuitλ .
sumber