8

Adakah yang bisa memberikan pandangan intuitif tentang mengapa lebih baik memiliki beta yang lebih kecil?

Untuk LASSO saya bisa mengerti itu, ada komponen pemilihan fitur di sini. Lebih sedikit fitur membuat model lebih sederhana dan karena itu lebih kecil kemungkinannya untuk pas.

Namun, untuk punggungan, semua fitur (faktor) disimpan. Hanya nilainya yang lebih kecil (dalam arti norma L2). Bagaimana ini membuat model lebih sederhana?

Adakah yang bisa memberikan tampilan intuitif tentang hal ini?

regression lasso ridge-regression shrinkage pengguna152503
sumber

lebih kecil tidak selalu lebih baik: menyusut ke ruang mana pun mengurangi risiko, terutama di lingkungan ruang itu. Penaksir ini yang Anda sebutkan kebetulan mengambil tempat itu sebagai asal.

user795305

9

TL; DR - Prinsip yang sama berlaku untuk LASSO dan Ridge

Lebih sedikit fitur membuat model lebih sederhana dan karena itu lebih kecil kemungkinannya untuk pas

Ini adalah intuisi yang sama dengan regresi ridge - kami mencegah model dari pemasangan data yang berlebihan, tetapi alih-alih menargetkan variabel kecil yang berpotensi palsu (yang dikurangi menjadi nol di LASSO), kami malah menargetkan koefisien terbesar yang mungkin melebih-lebihkan kasus untuk masing-masing variabel.

Penalti L2 umumnya mencegah model dari menempatkan "terlalu banyak" kepentingan pada salah satu variabel, karena koefisien besar dihukum lebih dari yang kecil.

Ini mungkin tidak terlihat seperti "menyederhanakan" model, tetapi ia melakukan tugas yang sama untuk mencegah model dari pemasangan yang berlebihan terhadap data yang ada.

Contoh membangun intuisi

Ambil contoh konkret - Anda mungkin mencoba memprediksi penerimaan di rumah sakit berdasarkan karakteristik pasien.

Dalam hal ini, Anda mungkin memiliki variabel yang relatif jarang (seperti penyakit tidak umum) yang kebetulan sangat berkorelasi dalam pelatihan Anda dengan penerimaan kembali. Dalam dataset 10.000 pasien, Anda mungkin hanya melihat penyakit ini 10 kali, dengan 9 penerimaan kembali (contoh ekstrim untuk memastikan)

Akibatnya, koefisien mungkin besar relatif terhadap koefisien variabel lain. Dengan meminimalkan baik MSE dan hukuman L2, ini akan menjadi kandidat yang baik untuk regresi ridge untuk "menyusut" menuju nilai yang lebih kecil, karena jarang (jadi tidak berdampak MSE banyak), dan nilai koefisien yang ekstrim.

Michael Oberst
sumber

4

Tidak ada jaminan bahwa memiliki bobot yang lebih kecil sebenarnya lebih baik. Lasso dan ridge regression bekerja dengan memaksakan pengetahuan / asumsi / kendala sebelumnya pada solusi. Pendekatan ini akan bekerja dengan baik jika sebelumnya / asumsi / kendala cocok dengan distribusi aktual yang menghasilkan data, dan mungkin tidak berfungsi dengan baik jika tidak. Mengenai kesederhanaan / kompleksitas, itu bukan model individual yang lebih sederhana atau lebih kompleks. Sebaliknya, itu adalah keluarga model yang dipertimbangkan.

Dari perspektif geometris, laso dan regresi ridge memberlakukan batasan pada bobot. Misalnya, hukuman umum / bentuk Lagrangian dari regresi ridge:

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\min_\beta \|y - X\beta\|_2^2 + \lambda \|\beta\|_2^2$

dapat ditulis ulang dalam bentuk kendala yang setara:

min_{β} ‖ y - X β ‖_{2}^{2} s.t. ‖ β ‖_{2}^{2} \leq c

$\min_\beta \|y - X\beta\|_2^2 \quad \text{s.t. } \|\beta\|_2^2 \le c$

Ini memperjelas bahwa regresi ridge membatasi bobot untuk berada di dalam hypersphere yang radiusnya diatur oleh parameter regularisasi. Demikian pula, laso membatasi bobot untuk berada dalam polytope yang ukurannya diatur oleh parameter regularisasi. Batasan ini berarti bahwa sebagian besar ruang parameter asli berada di luar batas, dan kami mencari bobot optimal dalam ruang bagian yang jauh lebih kecil. Subruang yang lebih kecil ini dapat dianggap kurang 'kompleks' daripada ruang penuh.

Dari perspektif Bayesian, orang dapat berpikir tentang distribusi posterior atas semua pilihan bobot. Baik laso dan regresi ridge sama dengan estimasi MAP setelah menempatkan prior pada bobot (laso menggunakan Laplacian prior dan regresi ridge menggunakan Gaussian prior). Posterior yang lebih sempit berhubungan dengan pembatasan yang lebih besar dan kompleksitas yang lebih sedikit, karena kepadatan posterior yang tinggi diberikan kepada set parameter yang lebih kecil. Misalnya, mengalikan fungsi kemungkinan dengan prior Gaussian yang sempit (yang sesuai dengan penalti punggungan besar) menghasilkan posterior yang lebih sempit.

Salah satu alasan utama untuk memaksakan kendala / prioritas adalah bahwa memilih model yang optimal dari keluarga yang lebih terbatas lebih kecil kemungkinannya untuk mengenakan pakaian daripada memilihnya dari keluarga yang tidak terlalu terbatas. Ini karena keluarga yang tidak terlalu terbatas memberikan cara 'lebih' untuk menyesuaikan data, dan semakin besar kemungkinan salah satu dari mereka akan dapat menyesuaikan fluktuasi acak dalam rangkaian pelatihan. Untuk perawatan yang lebih formal, lihat tradeoff bias-varians . Ini tidak berarti bahwa memilih model dari keluarga yang lebih terbatas akan bekerja dengan baik. Untuk mendapatkan kinerja yang baik mengharuskan keluarga terbatas benar-benar berisi model yang baik. Ini berarti kita harus memilih prior / constraint yang cocok dengan masalah spesifik yang dihadapi.

pengguna20160
sumber

(+1) Gagasan kunci dalam menjawab pertanyaan OPs tampaknya menjadi bias varians tradeoff

user795305

1

Meskipun pertanyaannya meminta penjelasan intuitif, sebenarnya ada derivasi yang kuat dari Mean Square Error (MSE) untuk regresi ridge yang menunjukkan bahwa ada nilai mencapai MSE yang lebih baik daripada regresi linier. $\lambda$

Ingat: Hubungi estimator untuk regresi ridge yang parameter penyusutannya dan tentukan: . $MSE(\hat{\beta})=\mathbb{E}[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T]$ $\hat{\beta_\lambda}$ $\beta$ $\lambda$ $M(\lambda)=MSE(\hat{\beta_\lambda})$

Oleh karena itu adalah MSE dari regresi linier. $M(0)$

Dengan mengikuti catatan kursus ini orang dapat menunjukkan bahwa:

M. (0) - M. (λ) = λ (X^{T} X + λ saya)^{- 1} (2 σ ² saya + λ σ ² (X^{T} X)^{- 1} - λ β β^{T}) {(X^{T} X + λ saya)^{- 1}}^{T}

$M(0)-M(\lambda)=\lambda(X^TX+\lambda I)^{-1}(2\sigma²I+\lambda\sigma²(X^TX)^{-1}-\lambda\beta\beta^T) \{(X^TX+\lambda I)^{-1}\}^T$

Istilah adalah positif pasti, tetapi, untuk , istilah di tengah adalah positif juga. Untuk nilai-nilai ini, kami memiliki , menunjukkan bahwa regresi ridge mengurangi Mean Square Error. $(X^TX+\lambda I)^{-1}$ $\lambda<2\sigma^2(\beta^T\beta)^{-1}$ $M(0)>M(\lambda)$

RUser4512
sumber

Meskipun aljabar bagus, Anda tidak perlu menjelaskannya. Karena OLS memaksakan batasan ketidakberpihakan dan Regresi Ridge menghilangkannya, OLS tidak akan pernah menghasilkan MSE yang lebih besar daripada OLS dan akan mencapai MSE yang sama hanya ketika solusi dan solusi OLSnya identik: jika tidak, ia harus memiliki MSE yang lebih kecil.

whuber

@whuber Saya tidak mengerti argumen dalam komentar Anda. Tidak bisakah seseorang dengan mudah menghasilkan beberapa estimator bodoh yang bias dan memiliki MSE lebih tinggi daripada estimator OLS?

β

$\beta$

amoeba

@Amoeba Ya, saya kira ada kehalusan: Saya secara implisit mengasumsikan bahwa kerugian Regresi Ridge untuk infinitesimal melintang ke hilangnya OLS. Ini menyiratkan bahwa untuk sewenang-wenang kecil harus ada solusi RR dengan MSE yang lebih kecil kecuali OLS telah mencapai MSE terkecil yang tidak bias .

λ

$\lambda$

λ

$\lambda$

whuber

@whuber Memang, jelas bahwa melonggarkan kendala, seseorang hanya bisa mengurangi MSE. Teorema ini menjamin bahwa kami benar-benar mencapai pengurangan ini.

RUser4512

Dalam regresi Ridge dan LASSO, mengapa lebih kecil

Jawaban:

TL; DR - Prinsip yang sama berlaku untuk LASSO dan Ridge

Contoh membangun intuisi