Saya telah membaca tiga alasan utama untuk menstandarkan variabel sebelum sesuatu seperti Lasso
regresi:
1) Interpretabilitas koefisien.
2) Kemampuan untuk menentukan peringkat kepentingan koefisien dengan besarnya relatif estimasi koefisien pasca penyusutan.
3) Tidak perlu mencegat.
Tetapi saya bertanya-tanya tentang hal yang paling penting. Apakah kita memiliki alasan untuk berpikir bahwa standardisasi akan meningkatkan keluaran generalisasi dari model? Juga saya tidak peduli jika saya tidak membutuhkan intersep dalam model saya; menambahkan satu tidak menyakitiku.
Jawaban:
Regresi Lasso memberikan batasan pada ukuran koefisien yang terkait dengan masing-masing variabel. Namun, nilai ini akan tergantung pada besarnya masing-masing variabel. Oleh karena itu perlu untuk memusatkan dan mengurangi, atau membakukan, variabel.
Hasil pemusatan variabel berarti tidak ada lagi intersep. Omong-omong, ini berlaku untuk regresi ridge.
Penjelasan lain yang baik adalah posting ini: Kebutuhan untuk memusatkan dan membakukan data dalam regresi
sumber
Parameter penalti L1 adalah penjumlahan dari istilah beta mutlak. Jika variabel semua dimensi berbeda maka istilah ini benar-benar tidak aditif meskipun secara matematis tidak ada kesalahan.
Namun, saya tidak melihat variabel dummy / kategori menderita dari masalah ini dan berpikir mereka tidak perlu distandarisasi. standarisasi ini hanya dapat mengurangi interpretabilitas variabel
sumber