Mengapa menggunakan estimasi Lasso di atas estimasi OLS pada subset variabel yang diidentifikasi Lasso?

Untuk regresi Lasso, misalkan solusi terbaik (contohnya kesalahan pengujian minimum) memilih fitur , sehingga .

L (β) = (X β - y)^{'} (X β - y) + λ ‖ β ‖_{1},

$L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,$

k

$k$

{\hat{β}}^{l a s s o} = ({\hat{β}}_{1}^{l a s s o}, {\hat{β}}_{2}^{l a s s o}, . . ., {\hat{β}}_{k}^{l a s s o}, 0, . . .0)

$\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right)$

Kita tahu bahwa $\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)$ adalah perkiraan bias dari $\left(\beta_1,\beta_2,...,\beta_k\right)$ , jadi mengapa kita masih menggunakan $\hat{\beta}^{lasso}$ sebagai solusi akhir, alih-alih yang lebih 'masuk akal' $\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right)$ , di mana $\hat{\beta}_{1:k}^{new}$ adalah taksiran LS dari model parsial $L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)$ . ( $X_{1:k}$ menunjukkan kolom $X$ sesuai dengan fitur yang dipilih $k$ ).

Secara singkat, mengapa kita menggunakan Lasso baik untuk pemilihan fitur dan estimasi parameter, alih-alih hanya untuk pemilihan variabel (dan membiarkan estimasi pada fitur yang dipilih untuk OLS)?

(Juga, apa artinya 'Lasso dapat memilih paling banyak fitur'? adalah ukuran sampel.) $n$ $n$

regression feature-selection lasso regularization yliueagle
sumber

Itu pertanyaan yang sangat bagus. Sudahkah Anda mencoba beberapa simulasi untuk melihat betapa berbedanya hasil dari standar Lasso jika Anda mencobanya?

Placidia

Apakah Anda memahami tujuan "Penyusutan" di LASSO?

Michael M

Idenya adalah untuk mengecilkan estimasi koefisien tepat karena Anda telah memilih yang terbesar. Estimasi kuadrat-terkecil tidak lagi tidak bias ketika Anda telah melakukan pemilihan fitur sebelumnya.

Scortchi

Lihat pertanyaan berikut untuk jawaban yang bagus untuk "Masalah apa yang dipecahkan oleh metode penyusutan?" stats.stackexchange.com/questions/20295/...

DL Dahly

Untuk lebih jelas: Tidak mengatakan @Scortchi salah, tapi ini sedikit abu-abu ketika membahas pemilihan fitur, dan saya pikir ini adalah poin teknis penting yang harus dibuat sangat jelas.

JohnA

Jawaban:

Saya tidak percaya ada yang salah dengan menggunakan LASSO untuk pemilihan variabel dan kemudian menggunakan OLS. Dari " Elemen Pembelajaran Statistik " (hal. 91)

... penyusutan laso menyebabkan estimasi koefisien non-nol menjadi bias terhadap nol dan secara umum mereka tidak konsisten [ Catatan Tambahan: Ini berarti bahwa, ketika ukuran sampel bertambah, estimasi koefisien tidak bertemu] . Salah satu pendekatan untuk mengurangi bias ini adalah menjalankan laso untuk mengidentifikasi set koefisien non-nol, dan kemudian menyesuaikan model linier yang tidak dibatasi untuk set fitur yang dipilih. Ini tidak selalu layak, jika set yang dipilih besar. Atau, seseorang dapat menggunakan laso untuk memilih set prediktor non-nol, dan kemudian menerapkan laso lagi, tetapi hanya menggunakan prediktor yang dipilih dari langkah pertama. Ini dikenal sebagai laso santai(Meinshausen, 2007). Idenya adalah untuk menggunakan validasi silang untuk memperkirakan parameter penalti awal untuk laso, dan sekali lagi untuk parameter penalti kedua diterapkan pada set prediktor yang dipilih. Karena variabel pada langkah kedua memiliki lebih sedikit "persaingan" dari variabel kebisingan, validasi silang akan cenderung memilih nilai yang lebih kecil untuk [parameter penalti], dan karenanya koefisien mereka akan menyusut lebih sedikit daripada yang ada dalam estimasi awal. $\lambda$

Pendekatan masuk akal lain yang serupa dalam semangat dengan laso santai, akan menggunakan laso sekali (atau beberapa kali bersama-sama) untuk mengidentifikasi sekelompok variabel prediktor kandidat. Kemudian gunakan regresi himpunan bagian terbaik untuk memilih variabel prediktor terbaik untuk dipertimbangkan (juga lihat "Elemen Pembelajaran Statistik" untuk ini). Agar ini berfungsi, Anda perlu mempersempit kelompok calon prediksi menjadi sekitar 35, yang tidak akan selalu layak. Anda dapat menggunakan cross-validation atau AIC sebagai kriteria untuk mencegah pemasangan berlebihan.

Alex Williams
sumber

Bagian lain dari pertanyaan saya adalah, mengapa 'Lasso dapat memilih paling banyak n fitur'? Jika ini masalahnya, saya pikir OLS pada fitur yang dipilih akan setidaknya 'baik', karena OLS adalah 'BIRU' (Tidak sepenuhnya BIRU karena sebagian besar bias). Perhatikan saja situasi ekstrem bahwa Lasso memilih fitur yang benar-benar tepat, melakukan OLS pada fitur-fitur ini akan mengembalikan model yang sebenarnya, yang menurut saya lebih baik daripada estimasi Lasso.

yliueagle

Masalahnya adalah bahwa "situasi ekstrem" ini sangat tidak mungkin terjadi, dan tidak ada cara untuk mengetahui apakah LASSO telah memilih fitur yang tepat. Jika LASSO memilih terlalu banyak fitur, maka saya pikir model OLS lengkap mungkin berkinerja lebih buruk daripada perkiraan LASSO. Demikian pula, regresi ridge dapat mengungguli OLS jika ada terlalu banyak fitur (yaitu OLS overfit).

Alex Williams

Lihat juga web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , akhir Bagian 2.2: "[...] kuadrat-terkecil yang cocok pada subset [...] prediktor cenderung memperluas perkiraan laso menjauhi nol. Perkiraan bukan nol dari laso cenderung bias ke nol, sehingga debiasing di panel kanan sering dapat meningkatkan kesalahan prediksi model. Proses dua tahap ini juga dikenal sebagai laso santai (Meinshausen 2007) . "

Amoeba berkata Reinstate Monica

Saya melihat ke kertas Meinshausen dan itu benar-benar merekomendasikan pemasangan dua parameter penalti, seperti yang dijelaskan dalam kutipan asli Anda dari The Elements. +1

amoeba berkata Reinstate Monica

@ AlexWilliams Tapi tidak ada asumsi sparsity dalam paragraf sebelumnya tentang korelasi antara set yang dipilih dan apa yang dihapus menjadi kecil?

Dimitriy V. Masterov

Jika tujuan Anda adalah kinerja dalam-sampel yang optimal (WRT kuadrat tertinggi), maka cukup gunakan OLS pada setiap variabel yang tersedia. Menjatuhkan variabel akan mengurangi R-kuadrat.

Jika tujuan Anda adalah kinerja out-of-sample yang baik (yang biasanya lebih penting), maka strategi yang Anda usulkan akan menderita dua sumber overfitting:

Pemilihan variabel berdasarkan korelasi dengan variabel respon
Perkiraan OLS

Tujuan LASSO adalah untuk mengecilkan estimasi parameter ke nol untuk bertarung di atas dua sumber overfitting. Prediksi dalam sampel akan selalu lebih buruk daripada OLS, tetapi harapannya (tergantung pada kekuatan hukuman) untuk mendapatkan perilaku sampel yang lebih realistis.

Mengenai : Ini (mungkin) tergantung pada implementasi LASSO yang Anda gunakan. Varian, Lars (regresi sudut terkecil), mudah digunakan untuk . $p > n$ $p > n$

Michael M.
sumber

"Leekasso" (selalu memilih 10 koefisien) berbeda dari proposal pertanyaan (estimasi ulang OLS dengan prediktor k yang diambil oleh LASSO)

Affine

@affine Anda sepenuhnya benar. Saya menghapus referensi.

Michael M

Ini kedengarannya masuk akal, tetapi penemu Lasso berpendapat sebaliknya dan benar-benar merekomendasikan menggunakan prosedur dua tahap dengan OLS pada subset yang diidentifikasi Lasso (seperti yang disarankan oleh OP), lihat jawaban @ Alex'es.

Amoeba berkata Reinstate Monica

Saya suka jawaban ini karena menyebutkan bias seleksi dari pencarian itu sendiri; itu pasti terasa seperti harus ada penalti tambahan. LASSO hanya sebagai mekanisme pemilihan subset - apakah hanya itu yang ada? Lalu mengapa bahkan mencetak koefisiennya sama sekali?

Ben Ogorek

Mengenai pertanyaan OPs mengapa Lasso dapat memilih paling banyak n fitur:

$X^{T}X$ $\beta = (X^{T} X)^{-1}X^{T}Y$

$X^{T}X$

jmp111
sumber

(X^{T} X)^{- 1}

$(X^TX)^{-1}$