Standardisasi vs Normalisasi untuk Lasso / Ridge Regression

9

Saya sadar ini adalah praktik umum untuk membakukan fitur untuk ridge dan lasso regression, akan tetapi, apakah lebih praktis untuk menormalkan fitur pada skala (0,1) sebagai alternatif standardisasi z-skor untuk metode regresi ini?

Steve
sumber

Jawaban:

4

Jika Anda menerapkan normalisasi (menekan [0,1]) Anda akan memiliki ukuran kepentingan variabel relatif tetapi itu akan mengubah skala variabel Anda dan Anda akan kehilangan semua interpretabilitas model. Keuntungan dari standardisasi adalah bahwa Anda masih dapat menafsirkan model seperti yang Anda lakukan dengan regresi OLS yang tidak diregulasi (ini sudah dijawab di sini ).

Digio
sumber
3
Model yang diregulasi bertindak sangat berbeda dengan atau tanpa normalisasi !! Khususnya, jika kita tidak menormalkan fitur, kita akan mendapat penalti berbeda untuk fitur yang berbeda!
Haitao Du
1
Saya secara khusus berbicara tentang interpretasi koefisien Lasso , bukan estimasi. Mengingat bahwa perkiraan akan berubah, saya ingin tahu bagaimana model interpretasi akan berubah.
Digio
1
Bagi saya sepertinya pertanyaan yang Anda tautkan dalam jawaban Anda tidak mendukung maksud Anda. Bisakah Anda membuat lebih eksplisit dalam posting asli Anda mengapa penafsiran koefisien ol hanya setuju dengan koefisien laso hanya ketika fitur standar? Terima kasih!
user795305
@ Ben, Anda salah mengerti jawaban saya (salah saya mungkin). The jawaban saya terkait dengan menjelaskan bagaimana model yang koefisien dalam laso dan regresi sederhana (OLS atau sebaliknya) diinterpretasikan dengan cara yang sama - dalam keadaan apapun (standar atau tidak). Dengan normalisasi (dalam semua jenis atau regresi parametrik), Anda kehilangan skala asli dan Anda tidak dapat menafsirkan koefisien tanpa transformasi balik. Dengan standarisasi, Anda menafsirkan model dengan cara normal.
Digio
0

Normalisasi sangat penting untuk metode dengan regularisasi. Ini karena skala variabel mempengaruhi seberapa banyak regularisasi akan berlaku untuk variabel tertentu.

Sebagai contoh, misalkan satu variabel dalam skala yang sangat besar, katakanlah urutan jutaan dan variabel lain adalah dari 0 hingga 1. Kemudian, kita dapat berpikir bahwa regularisasi akan sedikit berpengaruh pada variabel pertama.

Seperti halnya kita melakukan normalisasi, menormalkannya menjadi 0 hingga 1 atau menstandarisasi fitur tidak terlalu menjadi masalah.

Haitao Du
sumber
1
Jawaban ini menyatakan yang sudah jelas. Dengan "normalisasi" di sini ini berarti memeras semua nilai dalam [0,1], itu bukan hanya kata lain untuk standardisasi. Pertanyaannya adalah tentang efek normalisasi dalam [0,1] vs standardisasi ~ N (0,1) pada koefisien model.
Digio
Apa artinya normalisasi menjadi [0,1]? Ada banyak cara untuk mencapainya. Apa rekomendasi Anda untuk regresi yang dihukum?
Cagdas Ozgenc
1
Karena pertanyaan menyatakan "menormalkan fitur pada skala (0,1)", meskipun mungkin fitur penskalaan ulang adalah istilah yang lebih baik, adalah teknik umum untuk menghasilkan estimasi koefisien yang mengekspresikan kepentingan variabel relatif (mirip dengan ukuran kemurnian RF). Ya, ada banyak cara untuk mencapai ini dan itu bukan sesuatu yang spesifik untuk regresi yang dihukum tetapi pertanyaan ini adalah tentang efek dari pengubahan fitur (bukan standardisasi) pada Lasso.
Digio
apa yang Anda maksud dengan "menormalkan menjadi 0 hingga 1 atau membakukan fitur tidak terlalu penting"? Dalam arti apa tidak masalah? Bisakah Anda memberikan intuisi atau referensi untuk klaim ini?
user795305