Apakah standardisasi sebelum Lasso benar-benar diperlukan?

28

Saya telah membaca tiga alasan utama untuk menstandarkan variabel sebelum sesuatu seperti Lassoregresi:

1) Interpretabilitas koefisien.

2) Kemampuan untuk menentukan peringkat kepentingan koefisien dengan besarnya relatif estimasi koefisien pasca penyusutan.

3) Tidak perlu mencegat.

Tetapi saya bertanya-tanya tentang hal yang paling penting. Apakah kita memiliki alasan untuk berpikir bahwa standardisasi akan meningkatkan keluaran generalisasi dari model? Juga saya tidak peduli jika saya tidak membutuhkan intersep dalam model saya; menambahkan satu tidak menyakitiku.

Jase
sumber
1
Klarifikasi: Anda sepertinya ingin bertanya, "Asalkan standardisasi adalah opsional (salah satu kasus khusus di mana hasilnya tidak condong oleh besaran yang berbeda), maka apakah standardisasi akan meningkatkan generalisasi out-of-sample?" Apakah ini benar?
Drew75
@ Drew75 Saya lebih suka rincian kasus misalnya apakah itu membantu ketika hasilnya "condong oleh besaran yang berbeda", apakah itu membantu ketika hasilnya tidak miring, dan lain-lain, jawaban terbaik akan mencakup situasi yang berbeda.
Jase
1
Maka pertanyaan Anda bukan tentang Lasso (karena dalam standardisasi umum diperlukan sebelum Lasso). Ini lebih umum. Mungkin mengubah judul dan kalimat pertama dari pertanyaan itu.
Drew75
@Rew: Itu agak mengemis: Mengapa itu perlu (kapan bukan?)? Apa artinya membelokkan hasilnya (dibandingkan dengan apa?)? Saya pikir pertanyaannya baik-baik saja.
Scortchi
@ Drew75 Pertanyaan saya adalah tentang Lasso.
Jase

Jawaban:

21

Regresi Lasso memberikan batasan pada ukuran koefisien yang terkait dengan masing-masing variabel. Namun, nilai ini akan tergantung pada besarnya masing-masing variabel. Oleh karena itu perlu untuk memusatkan dan mengurangi, atau membakukan, variabel.

Hasil pemusatan variabel berarti tidak ada lagi intersep. Omong-omong, ini berlaku untuk regresi ridge.

Penjelasan lain yang baik adalah posting ini: Kebutuhan untuk memusatkan dan membakukan data dalam regresi

Drew75
sumber
Ini bukan jawaban atau jawaban yang sangat tidak langsung untuk pertanyaan saya. Tolong jelaskan tautan antara jawaban Anda dan keluar dari generalisasi sampel (yang merupakan pertanyaan).
Jase
10
@Jase: Ini memang membahas alasan utama standardisasi, yang Anda hilangkan dari daftar Anda: jika Anda ingin menjatuhkan prediktor dengan koefisien kecil (atau menggunakan istilah penalti tergantung pada besarnya koefisien), Anda perlu memutuskan apa yang dianggap sebagai "kecil ". Meskipun standardisasi tidak wajib sebelum LASSO atau metode regresi lainnya, jarang terjadi bahwa skala asli yang diukur oleh para pengukur berguna untuk tujuan ini.
Scortchi
3
Dan poin tentang pemusatan adalah bahwa Anda biasanya tidak ingin menjatuhkan atau mengecilkan intersep.
Scortchi
2
λ
2
Sangat luas, seberapa banyak Anda menyusut secara keseluruhan akan mempengaruhi generalisasi untuk sampel penahanan acak; keputusan yang agak arbitrer berapa banyak untuk mengecilkan masing-masing prediktor relatif terhadap yang lain akan mempengaruhi generalisasi ke sampel baru dari populasi yang sama, di mana koefisien sedikit berbeda, di mana distribusi prediktor tidak selalu seperti itu di set pelatihan , & c. (Tentu saja pertanyaan Anda pantas mendapatkan jawaban yang lebih
matang
2

Parameter penalti L1 adalah penjumlahan dari istilah beta mutlak. Jika variabel semua dimensi berbeda maka istilah ini benar-benar tidak aditif meskipun secara matematis tidak ada kesalahan.

Namun, saya tidak melihat variabel dummy / kategori menderita dari masalah ini dan berpikir mereka tidak perlu distandarisasi. standarisasi ini hanya dapat mengurangi interpretabilitas variabel

Sumit Dhar
sumber