Adakah yang bisa memberikan pandangan intuitif tentang mengapa lebih baik memiliki beta yang lebih kecil?
Untuk LASSO saya bisa mengerti itu, ada komponen pemilihan fitur di sini. Lebih sedikit fitur membuat model lebih sederhana dan karena itu lebih kecil kemungkinannya untuk pas.
Namun, untuk punggungan, semua fitur (faktor) disimpan. Hanya nilainya yang lebih kecil (dalam arti norma L2). Bagaimana ini membuat model lebih sederhana?
Adakah yang bisa memberikan tampilan intuitif tentang hal ini?
regression
lasso
ridge-regression
shrinkage
pengguna152503
sumber
sumber
Jawaban:
TL; DR - Prinsip yang sama berlaku untuk LASSO dan Ridge
Ini adalah intuisi yang sama dengan regresi ridge - kami mencegah model dari pemasangan data yang berlebihan, tetapi alih-alih menargetkan variabel kecil yang berpotensi palsu (yang dikurangi menjadi nol di LASSO), kami malah menargetkan koefisien terbesar yang mungkin melebih-lebihkan kasus untuk masing-masing variabel.
Penalti L2 umumnya mencegah model dari menempatkan "terlalu banyak" kepentingan pada salah satu variabel, karena koefisien besar dihukum lebih dari yang kecil.
Ini mungkin tidak terlihat seperti "menyederhanakan" model, tetapi ia melakukan tugas yang sama untuk mencegah model dari pemasangan yang berlebihan terhadap data yang ada.
Contoh membangun intuisi
Ambil contoh konkret - Anda mungkin mencoba memprediksi penerimaan di rumah sakit berdasarkan karakteristik pasien.
Dalam hal ini, Anda mungkin memiliki variabel yang relatif jarang (seperti penyakit tidak umum) yang kebetulan sangat berkorelasi dalam pelatihan Anda dengan penerimaan kembali. Dalam dataset 10.000 pasien, Anda mungkin hanya melihat penyakit ini 10 kali, dengan 9 penerimaan kembali (contoh ekstrim untuk memastikan)
Akibatnya, koefisien mungkin besar relatif terhadap koefisien variabel lain. Dengan meminimalkan baik MSE dan hukuman L2, ini akan menjadi kandidat yang baik untuk regresi ridge untuk "menyusut" menuju nilai yang lebih kecil, karena jarang (jadi tidak berdampak MSE banyak), dan nilai koefisien yang ekstrim.
sumber
Tidak ada jaminan bahwa memiliki bobot yang lebih kecil sebenarnya lebih baik. Lasso dan ridge regression bekerja dengan memaksakan pengetahuan / asumsi / kendala sebelumnya pada solusi. Pendekatan ini akan bekerja dengan baik jika sebelumnya / asumsi / kendala cocok dengan distribusi aktual yang menghasilkan data, dan mungkin tidak berfungsi dengan baik jika tidak. Mengenai kesederhanaan / kompleksitas, itu bukan model individual yang lebih sederhana atau lebih kompleks. Sebaliknya, itu adalah keluarga model yang dipertimbangkan.
Dari perspektif geometris, laso dan regresi ridge memberlakukan batasan pada bobot. Misalnya, hukuman umum / bentuk Lagrangian dari regresi ridge:
dapat ditulis ulang dalam bentuk kendala yang setara:
Ini memperjelas bahwa regresi ridge membatasi bobot untuk berada di dalam hypersphere yang radiusnya diatur oleh parameter regularisasi. Demikian pula, laso membatasi bobot untuk berada dalam polytope yang ukurannya diatur oleh parameter regularisasi. Batasan ini berarti bahwa sebagian besar ruang parameter asli berada di luar batas, dan kami mencari bobot optimal dalam ruang bagian yang jauh lebih kecil. Subruang yang lebih kecil ini dapat dianggap kurang 'kompleks' daripada ruang penuh.
Dari perspektif Bayesian, orang dapat berpikir tentang distribusi posterior atas semua pilihan bobot. Baik laso dan regresi ridge sama dengan estimasi MAP setelah menempatkan prior pada bobot (laso menggunakan Laplacian prior dan regresi ridge menggunakan Gaussian prior). Posterior yang lebih sempit berhubungan dengan pembatasan yang lebih besar dan kompleksitas yang lebih sedikit, karena kepadatan posterior yang tinggi diberikan kepada set parameter yang lebih kecil. Misalnya, mengalikan fungsi kemungkinan dengan prior Gaussian yang sempit (yang sesuai dengan penalti punggungan besar) menghasilkan posterior yang lebih sempit.
Salah satu alasan utama untuk memaksakan kendala / prioritas adalah bahwa memilih model yang optimal dari keluarga yang lebih terbatas lebih kecil kemungkinannya untuk mengenakan pakaian daripada memilihnya dari keluarga yang tidak terlalu terbatas. Ini karena keluarga yang tidak terlalu terbatas memberikan cara 'lebih' untuk menyesuaikan data, dan semakin besar kemungkinan salah satu dari mereka akan dapat menyesuaikan fluktuasi acak dalam rangkaian pelatihan. Untuk perawatan yang lebih formal, lihat tradeoff bias-varians . Ini tidak berarti bahwa memilih model dari keluarga yang lebih terbatas akan bekerja dengan baik. Untuk mendapatkan kinerja yang baik mengharuskan keluarga terbatas benar-benar berisi model yang baik. Ini berarti kita harus memilih prior / constraint yang cocok dengan masalah spesifik yang dihadapi.
sumber
Meskipun pertanyaannya meminta penjelasan intuitif, sebenarnya ada derivasi yang kuat dari Mean Square Error (MSE) untuk regresi ridge yang menunjukkan bahwa ada nilai mencapai MSE yang lebih baik daripada regresi linier.λ
Ingat: Hubungi estimator untuk regresi ridge yang parameter penyusutannya dan tentukan: .M.SE(β^) = E [ (β^- β) (β^- β)T] βλ^ β λ M.( λ ) = MSE(βλ^)
Oleh karena itu adalah MSE dari regresi linier.M.( 0 )
Dengan mengikuti catatan kursus ini orang dapat menunjukkan bahwa:
Istilah adalah positif pasti, tetapi, untuk , istilah di tengah adalah positif juga. Untuk nilai-nilai ini, kami memiliki , menunjukkan bahwa regresi ridge mengurangi Mean Square Error.(XTX+ λ I)- 1 λ < 2σ2(βTβ)- 1 M.( 0 ) > M( λ )
sumber