Saya mengalami beberapa masalah dengan derivasi solusi untuk regresi ridge.
Saya tahu solusi regresi tanpa ketentuan regularisasi:
Tetapi setelah menambahkan istilah L2 ke fungsi biaya, mengapa solusinya menjadi
regression
least-squares
regularization
ridge-regression
pengguna34790
sumber
sumber
Mari kita membangun apa yang kita ketahui, yaitu setiap matriks model adalah , respons -vektor adalah , dan parameter -vector adalah , fungsi objektifn×p X n y p β
(yang merupakan jumlah kuadrat residu) diminimalkan ketika memecahkan persamaan Normalβ
Regresi Ridge menambahkan istilah lain ke fungsi objektif (biasanya setelah menstandarisasi semua variabel untuk menempatkan mereka pada pijakan yang sama), meminta untuk meminimalkan
untuk beberapa konstanta non-negatif . Ini adalah jumlah kuadrat dari residu ditambah kelipatan dari kuadrat dari koefisien itu sendiri (membuatnya jelas bahwa ia memiliki minimum global). Karena , ia memiliki akar kuadrat positif .λ λ≥0 ν2=λ
Pertimbangkan matriks ditambah dengan baris yang sesuai dengan kali matriks identitas :X ν p×p I
Ketika vektor diperluas sama dengan nol di akhir , produk matriks dalam fungsi objektif menambahkan syarat tambahan dari formulir ke tujuan semula. Karena ituy p y∗ p (0−νβi)2=λβ2i
Dari bentuk ekspresi tangan kiri, langsung bahwa persamaan Normal adalah
Karena kita menyatukan nol ke ujung , sisi kanan sama dengan . Di sisi kiri ditambahkan ke . Oleh karena itu persamaan Normal yang baru disederhanakan menjadiy X′y ν2I=λI X′X
Selain ekonomis secara konseptual - tidak ada manipulasi baru yang diperlukan untuk memperoleh hasil ini - juga ekonomis secara komputasi: perangkat lunak Anda untuk melakukan kuadrat terkecil biasa juga akan melakukan regresi ridge tanpa perubahan apa pun. (Namun demikian dapat membantu dalam masalah besar untuk menggunakan perangkat lunak yang dirancang untuk tujuan ini, karena itu akan mengeksploitasi struktur khusus untuk memperoleh hasil secara efisien untuk interval spasi yang padat , memungkinkan Anda untuk mengeksplorasi bagaimana jawabannya bervariasi dengan .)X∗ λ λ
Keindahan lain dari cara memandang hal - hal ini adalah bagaimana hal itu dapat membantu kita memahami regresi ridge. Ketika kita ingin benar-benar memahami regresi, hampir selalu membantu untuk memikirkannya secara geometris: kolom membentuk vektor dalam ruang vektor nyata dari dimensi . Dengan menyatukan ke , dengan demikian memperpanjangnya dari vektor ke vektor, kami menyematkan ke dalam ruang yang lebih besar dengan memasukkan "imajiner", arah yang saling ortogonal. Kolom pertamaX p n νI X n n+p Rn Rn+p p X diberi komponen imajiner kecil dengan ukuran , sehingga memanjangnya dan memindahkannya keluar dari ruang yang dihasilkan oleh kolom asli . Kolom kedua, ketiga, ..., sama-sama diperpanjang dan dipindahkan dari ruang asli dengan jumlah yang sama - tetapi semuanya dalam arah baru yang berbeda. Akibatnya, setiap collinearity yang ada di kolom asli akan segera diselesaikan. Selain itu, semakin besar , semakin banyak vektor baru ini mendekati individuν p pth ν ν p arah imajiner: mereka menjadi lebih dan lebih normal. Akibatnya, solusi dari persamaan Normal akan segera menjadi mungkin dan itu akan cepat menjadi stabil secara numerik karena meningkat dari .ν 0
Deskripsi proses ini menyarankan beberapa pendekatan baru dan kreatif untuk mengatasi masalah yang dirancang untuk ditangani oleh Ridge Regression. Misalnya, dengan menggunakan segala cara apa pun (seperti dekomposisi varian yang dijelaskan oleh Belsley, Kuh, dan Welsch dalam buku 1980 mereka tentang Regresi Diagnostik , Bab 3), Anda mungkin dapat mengidentifikasi subkelompok kolom hampir collinear , di mana setiap subkelompok hampir ortogonal dengan yang lain. Anda hanya perlu berdampingan dengan banyak baris ke (dan nol ke ) karena ada elemen dalam grup terbesar, yang mendedikasikan satu dimensi "imajiner" baru untuk memindahkan setiap elemen grup dari saudara-saudaranya: Anda tidak perlu imajiner dimensi untuk melakukan ini.X X y p
sumber
Derivasi termasuk kalkulus matriks, yang bisa sangat membosankan. Kami ingin mengatasi masalah berikut:
Sekarang perhatikan bahwa dan Bersama-sama kita mencapai kondisi urutan pertama Mengisolasi menghasilkan solusi:
sumber
Saya baru-baru ini menemukan pertanyaan yang sama dalam konteks P-Splines dan karena konsepnya sama, saya ingin memberikan jawaban yang lebih terperinci tentang derivasi penaksir bubungan.
Kita mulai dengan fungsi kriteria hukuman yang berbeda dari fungsi kriteria OLS klasik dengan istilah hukumannya di ringkasan terakhir:
dimana
Kita dapat menulis ulang kriteria ini dalam notasi matriks dan selanjutnya memecahnya:
Sekarang kami mencari yang meminimalkan kriteria kami. Di antara yang lainnya, kami menggunakan aturan diferensiasi matriks yang dapat kita gunakan berlaku di sini sebagai :β ∂xTAx∂x=(A+AT)x=A symmetric2Ax (XTX+λI)∈Rn×n
sumber
Ada beberapa hal penting yang hilang dalam jawaban yang diberikan.
Solusi untuk berasal dari kondisi urutan pertama yang diperlukan: yang menghasilkan . Tetapi apakah ini cukup? Artinya, solusinya adalah minimum global hanya jika benar-benar cembung. Ini bisa terbukti benar.β ∂fridge(β,λ)∂β=0 β=(XTX+λI)−1XTY fridge(β,λ)
Cara lain untuk melihat masalahnya adalah dengan melihat kesetaraan antara dan dibatasi menjadi . OLS adalah singkatan dari Ordinary Least Squares. Dari perspektif ini hanyalah fungsi Lagrangian yang digunakan untuk menemukan minimum global fungsi objektif cembung dibatasi dengan fungsi cembung .fridge(β,λ) fOLS(β)=(Y−βTX)T(Y−βTX) ||β||22≤t fridge(β,λ) fOLS(β) ||β||22
Penjelasan yang baik tentang poin-poin ini dan derivasi dapat ditemukan dalam catatan kuliah yang bagus ini: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ
sumber