Untuk regresi Lasso, misalkan solusi terbaik (contohnya kesalahan pengujian minimum) memilih fitur , sehingga \ hat {\ beta} ^ {lasso} = \ kiri (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ benar) .
Kita tahu bahwa adalah perkiraan bias dari , jadi mengapa kita masih menggunakan sebagai solusi akhir, alih-alih yang lebih 'masuk akal' , di mana adalah taksiran LS dari model parsial . ( menunjukkan kolom sesuai dengan fitur yang dipilih ).
Secara singkat, mengapa kita menggunakan Lasso baik untuk pemilihan fitur dan estimasi parameter, alih-alih hanya untuk pemilihan variabel (dan membiarkan estimasi pada fitur yang dipilih untuk OLS)?
(Juga, apa artinya 'Lasso dapat memilih paling banyak fitur'? adalah ukuran sampel.)
sumber
Jawaban:
Saya tidak percaya ada yang salah dengan menggunakan LASSO untuk pemilihan variabel dan kemudian menggunakan OLS. Dari " Elemen Pembelajaran Statistik " (hal. 91)
Pendekatan masuk akal lain yang serupa dalam semangat dengan laso santai, akan menggunakan laso sekali (atau beberapa kali bersama-sama) untuk mengidentifikasi sekelompok variabel prediktor kandidat. Kemudian gunakan regresi himpunan bagian terbaik untuk memilih variabel prediktor terbaik untuk dipertimbangkan (juga lihat "Elemen Pembelajaran Statistik" untuk ini). Agar ini berfungsi, Anda perlu mempersempit kelompok calon prediksi menjadi sekitar 35, yang tidak akan selalu layak. Anda dapat menggunakan cross-validation atau AIC sebagai kriteria untuk mencegah pemasangan berlebihan.
sumber
Jika tujuan Anda adalah kinerja dalam-sampel yang optimal (WRT kuadrat tertinggi), maka cukup gunakan OLS pada setiap variabel yang tersedia. Menjatuhkan variabel akan mengurangi R-kuadrat.
Jika tujuan Anda adalah kinerja out-of-sample yang baik (yang biasanya lebih penting), maka strategi yang Anda usulkan akan menderita dua sumber overfitting:
Tujuan LASSO adalah untuk mengecilkan estimasi parameter ke nol untuk bertarung di atas dua sumber overfitting. Prediksi dalam sampel akan selalu lebih buruk daripada OLS, tetapi harapannya (tergantung pada kekuatan hukuman) untuk mendapatkan perilaku sampel yang lebih realistis.
Mengenai : Ini (mungkin) tergantung pada implementasi LASSO yang Anda gunakan. Varian, Lars (regresi sudut terkecil), mudah digunakan untuk p > n .p > n p > n
sumber
Mengenai pertanyaan OPs mengapa Lasso dapat memilih paling banyak n fitur:
sumber