Untuk LASSO (dan prosedur pemilihan model lainnya), sangat penting untuk mengubah skala prediktor. The umum Rekomendasi saya tindak hanya menggunakan 0 berarti, 1 standar deviasi normalisasi untuk variabel kontinyu. Tapi apa yang harus dilakukan dengan boneka?
Misalnya beberapa contoh terapan dari sekolah musim panas yang sama (luar biasa) yang saya tautkan dengan menskala ulang variabel kontinu menjadi antara 0 dan 1 (meskipun tidak hebat dengan outlier), mungkin sebanding dengan boneka. Tetapi bahkan itu tidak menjamin bahwa koefisien harus urutan besarnya sama, dan dengan demikian dihukum sama, alasan utama untuk penyelamatan, bukan?
Jawaban:
Menurut Tibshirani ( METODE LASSO UNTUK PEMILIHAN VARIABEL DALAM MODEL COX, Statistics in Medicine, VOL. 16, 385-395 (1997) ), yang secara harfiah menulis buku tentang metode regularisasi, Anda harus menstandarisasi boneka. Namun, Anda kemudian kehilangan interpretasi langsung dari koefisien Anda. Jika tidak, variabel Anda tidak berada di lapangan yang sama. Anda pada dasarnya memberikan skala yang mendukung variabel kontinu Anda (kemungkinan besar). Jadi, jika tujuan utama Anda adalah pemilihan model maka ini adalah kesalahan yang mengerikan. Namun, jika Anda lebih tertarik pada interpretasi maka mungkin ini bukan ide terbaik.
Rekomendasi ada di halaman 394:
sumber
Posting blog Andrew Gelman, Kapan untuk membakukan input regresi dan kapan meninggalkannya sendirian , juga patut dilihat. Bagian ini khususnya relevan:
sumber
x -> x / 2
Ini lebih dari komentar, tetapi terlalu lama. Salah satu perangkat lunak yang paling sering digunakan untuk laso (dan teman) adalah R's
glmnet
. Dari halaman bantuan, dicetak oleh?glmnet
:sumber