Posting ini mengikuti yang ini: Mengapa estimasi ridge menjadi lebih baik daripada OLS dengan menambahkan konstanta pada diagonal?
Ini pertanyaan saya:
Sejauh yang saya tahu, regularisasi ridge menggunakan -norm (jarak euclidean). Tetapi mengapa kita menggunakan kuadrat dari norma ini? (aplikasi langsung akan menghasilkan dengan akar kuadrat dari jumlah beta kuadrat).ℓ 2
Sebagai perbandingan, kami tidak melakukan ini untuk LASSO, yang menggunakan -norm untuk mengatur. Tapi di sini itu norma "nyata" ℓ 1 (hanya jumlah kuadrat dari nilai absolut beta, dan bukan kuadrat dari jumlah ini).
Dapatkah seseorang membantu saya mengklarifikasi?
Jawaban:
Ridge dan laso adalah dua cara regularisasi dan regresi. Regresi Lasso memberikan batasan pada jumlah koefisien absolut:
Regresi Ridge memberlakukan batasan jumlah perbedaan kuadrat:
Anda menyarankan untuk memperkenalkan bahkan norma lain, panjang koefisien euclidean:
Perbedaan antara regresi Ridge dan panjang euclidean adalah kuadrat. Ini memang mengubah interpretasi regularisasi. Sementara kedua ridge dan panjang euclidean diatur ke arah nol, regresi ridge juga berbeda dalam jumlah regularisasi. Koefisien yang lebih jauh dari nol menarik lebih kuat ke nol. Ini membuatnya lebih stabil di sekitar nol karena perubahan regularisasi secara bertahap di sekitar nol. Ini bukan kasus untuk panjang euclidean, atau sebagai soal fakta, untuk regresi laso.
sumber
Ada banyak pendekatan hukuman yang memiliki semua jenis fungsi penalti yang berbeda sekarang (ridge, laso, MCP, SCAD). Pertanyaan mengapa salah satu bentuk tertentu pada dasarnya adalah "apa kelebihan / kerugian yang diberikan hukuman seperti itu?".
Properti yang menarik mungkin:
1) penaksir yang hampir tidak bias (perhatikan semua penaksir yang dihukum akan bias)
2) Sparsity (perhatikan regresi ridge tidak menghasilkan hasil yang jarang, yaitu tidak mengecilkan koefisien sampai nol)
3) Kontinuitas (untuk menghindari ketidakstabilan dalam prediksi model)
Ini hanya beberapa properti yang mungkin tertarik pada fungsi penalti.
Jauh lebih mudah untuk bekerja dengan penjumlahan dalam derivasi dan kerja teoretis: misalnya dan | | β | | 1 = ∑ | β i | . Bayangkan jika kita punya √| | β| |22= ∑ | βsaya|2 | | β| |1= ∑ | βsaya| atau(Σ|ßi|)2. Mengambil turunan (yang diperlukan untuk menunjukkan hasil teoretis seperti konsistensi, normalitas asimptotik, dll.) Akan menyebalkan dengan hukuman seperti itu.( Σ | ßsaya|2)--------√ ( Σ | ßsaya| )2
sumber
Regresi Ridge kemudian menggunakan , dan Lasso tetapi orang dapat menggunakan nilai lain dari .p = 1 pp=2 p=1 p
Misalnya Anda memiliki solusi jarang untuk semua nilai , dan semakin kecil nilai semakin jarang solusi.pp≤1 p
Untuk nilai sasaran Anda tidak lebih mulus sehingga pengoptimalan menjadi lebih sulit; untuk tujuannya adalah non-cembung dan optimasi jadi lebih sulit ...p < 1p≤1 p<1
sumber
Saya percaya ada jawaban yang lebih sederhana di sini, meskipun pertanyaan "mengapa" selalu sulit dijawab ketika suatu teknik dikembangkan. Kuadrat -norm digunakan sehingga istilah regularisasi mudah dibedakan. Regresi Ridge meminimalkan:l2
Yang juga dapat ditulis:
Ini sekarang dapat dengan mudah dibedakan wrt untuk mendapatkan solusi bentuk tertutup:β
dari mana semua agak inferensi dapat diturunkan.
sumber
Pertimbangkan satu perbedaan penting lainnya antara menggunakan kuadrat dari norma (yaitu regresi ridge) dan norma tidak dimodifikasi : turunan dari norma dari , , pada diberikan oleh dan karenanya tidak dapat dibedakan pada vektor nol. Yaitu, meskipun norma tidak melakukan pemilihan variabel individual seperti laso, secara teori ia dapat menghasilkan sebagai solusi untuk kemungkinan hukuman maksimum. Dengan mengkuadratkanℓ 2 ℓ 2 x | | x | | 2 x xℓ2 ℓ2 ℓ2 x ||x||2 x ℓ2β=0ℓ2x||x||2 ℓ2 β=0 ℓ2 Dalam norma penalti, penalti tipe ridge dapat dibedakan di mana-mana dan tidak pernah dapat menghasilkan solusi seperti itu.
Perilaku ini persis (menurut pemahaman saya) mengapa kelompok laso (Yuan dan Lin) dan laso kelompok jarang (Simon, et al.), Dll, menggunakan norma (pada himpunan bagian koefisien yang ditentukan sebelumnya) alih-alih kuadrat dari norma .ℓ 2ℓ2 ℓ2
sumber