Kapan menggunakan metode regularisasi untuk regresi?

83

Dalam keadaan apa seseorang harus mempertimbangkan menggunakan metode regularisasi (ridge, laso atau paling tidak sudut regresi) daripada OLS?

Dalam hal ini membantu mengarahkan diskusi, minat utama saya adalah meningkatkan akurasi prediksi.

NPE
sumber

Jawaban:

75

Jawaban singkat: Setiap kali Anda menghadapi salah satu dari situasi ini:

  • sejumlah besar variabel atau rasio rendah dari no. observasi ke no. variabel (termasuk kasus ),np
  • collinearity tinggi,
  • mencari solusi yang jarang (yaitu, menanamkan pemilihan fitur ketika memperkirakan parameter model), atau
  • akuntansi untuk pengelompokan variabel dalam set data dimensi tinggi.

Regresi Ridge umumnya menghasilkan prediksi yang lebih baik daripada solusi OLS, melalui kompromi yang lebih baik antara bias dan varians. Kelemahan utamanya adalah bahwa semua prediktor disimpan dalam model, sehingga tidak terlalu menarik jika Anda mencari model yang pelit atau ingin menerapkan semacam pemilihan fitur.

Untuk mencapai sparsity, laso lebih tepat tetapi tidak selalu menghasilkan hasil yang baik di hadapan collinearity tinggi (telah diamati bahwa jika prediktor sangat berkorelasi, kinerja prediksi laso didominasi oleh regresi ridge). Masalah kedua dengan penalti L1 adalah bahwa solusi laso tidak ditentukan secara unik ketika jumlah variabel lebih besar dari jumlah subjek (ini bukan kasus regresi ridge). Kelemahan terakhir dari laso adalah bahwa ia cenderung untuk memilih hanya satu variabel di antara sekelompok prediktor dengan korelasi berpasangan tinggi. Dalam hal ini, ada solusi alternatif seperti kelompok (yaitu, mencapai penyusutan pada blok kovariat, yaitu beberapa blok koefisien regresi tepat nol) atau menyatulaso. The Graphical Lasso juga menawarkan fitur yang menjanjikan untuk GGMs (lihat R glasso paket).

m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

di mana dan.β2=j=1pβj2β1=j=1p|βj|

Laso dapat dihitung dengan suatu algoritma yang didasarkan pada penurunan koordinat seperti yang dijelaskan dalam makalah baru-baru ini oleh Friedman dan kawan-kawan , Jalur Regulasi untuk Generalized Linear Models melalui Coordinate Descent (JSS, 2010) atau algoritma LARS. Dalam R, paket penalti , lars atau biglars , dan glmnet adalah paket yang berguna; di Python, ada toolkit scikit.learn , dengan dokumentasi luas tentang algoritma yang digunakan untuk menerapkan ketiga jenis skema regularisasi.

Adapun referensi umum, halaman Lasso berisi sebagian besar dari apa yang diperlukan untuk memulai dengan regresi laso dan rincian teknis tentang hukuman L1, dan pertanyaan terkait ini memiliki referensi penting, Kapan saya harus menggunakan laso vs ridge?

chl
sumber
1
Bagaimana jika saya memiliki banyak pengamatan dengan variabel yang relatif sedikit, tetapi rasio signal-to-noise yang sangat rendah? Sedemikian rendahnya, sehingga overfitting adalah masalah yang sangat nyata. Akankah regularisasi menjadi hal yang masuk akal untuk dicoba dan dilihat untuk meningkatkan akurasi prediksi?
NPE
1
@aix Tergantung pada apa yang sebenarnya Anda panggil beberapa variabel, dan variabel apa yang Anda hadapi. Tapi saya pikir pendekatan punggungan lebih disukai dalam kasus Anda. Anda juga dapat melihat Boosting Ridge Regression (Tutz & Binder, 2005). Estimasi ML yang dihukum juga diusulkan sebagai metode bawaan untuk mencegah overfitting; lihat misalnya, Estimasi Kemungkinan Maksimum yang Dihukum untuk memprediksi hasil biner: Bulan KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.
chl
20

Pembenaran teoretis untuk penggunaan regresi ridge adalah bahwa solusinya adalah rata-rata posterior yang diberikan sebelum normal pada koefisien. Artinya, jika Anda peduli tentang kesalahan kuadrat dan Anda percaya pada sebelumnya yang normal, perkiraan punggungan optimal.

Demikian pula, estimasi laso adalah mode posterior di bawah eksponensial ganda sebelum koefisien Anda. Ini optimal di bawah fungsi zero-one loss.

Dalam praktiknya, teknik-teknik ini biasanya meningkatkan akurasi prediksi dalam situasi di mana Anda memiliki banyak variabel berkorelasi dan tidak banyak data. Sementara estimator OLS adalah linier terbaik yang tidak memihak, ia memiliki varians yang tinggi dalam situasi ini. Jika Anda melihat pertukaran bias-varians, akurasi prediksi meningkat karena peningkatan kecil dalam bias lebih dari diimbangi oleh pengurangan besar dalam varians.

ncray
sumber