Menggunakan LASSO hanya untuk pemilihan fitur

10

Di kelas pembelajaran mesin saya, kami telah belajar tentang bagaimana regresi LASSO sangat baik dalam melakukan pemilihan fitur, karena menggunakan regularisasi .l1

Pertanyaan saya: apakah orang biasanya menggunakan model LASSO hanya untuk melakukan pemilihan fitur (dan kemudian melanjutkan untuk membuang fitur-fitur tersebut ke model pembelajaran mesin yang berbeda), atau apakah mereka biasanya menggunakan LASSO untuk melakukan pemilihan fitur dan regresi yang sebenarnya?

Sebagai contoh, anggaplah Anda ingin melakukan regresi ridge, tetapi Anda percaya bahwa banyak fitur Anda tidak terlalu baik. Apakah bijaksana untuk menjalankan LASSO, hanya mengambil fitur yang tidak mendekati nol oleh algoritma, dan kemudian hanya menggunakan yang ada di dumping data Anda ke dalam model regresi ridge? Dengan cara ini, Anda mendapatkan manfaat dari regularisasi untuk melakukan pemilihan fitur, tetapi juga manfaat dari regularisasi untuk mengurangi overfitting. (Saya tahu bahwa ini pada dasarnya sama dengan Regresi Jaring Elastis, tetapi sepertinya Anda tidak perlu memiliki istilah dan dalam fungsi tujuan regresi akhir.)l1l2l1l2

Selain dari regresi, apakah ini strategi yang bijaksana ketika melakukan tugas klasifikasi (menggunakan SVM, jaringan saraf, hutan acak, dll.)?

Ryan
sumber
1
Ya, menggunakan laso untuk pemilihan fitur untuk model lain adalah ide yang bagus. Atau pilihan fitur berbasis pohon juga dapat dimasukkan ke model lain
karthikbharadwaj
1
Laso hanya melakukan pemilihan fitur dalam model linier - ia tidak menguji interaksi tingkat tinggi atau nonlinier dalam prediktor. Untuk contoh bagaimana hal itu mungkin penting: stats.stackexchange.com/questions/164048/... Mileage Anda mungkin beragam.
Sycorax berkata Reinstate Monica

Jawaban:

11

Hampir semua pendekatan yang melakukan beberapa bentuk pemilihan model dan kemudian melakukan analisis lebih lanjut seolah-olah tidak ada pemilihan model yang sebelumnya terjadi biasanya memiliki proporsi yang buruk. Kecuali ada argumen teoritis yang kuat yang didukung oleh bukti dari misalnya studi simulasi luas untuk ukuran sampel yang realistis dan fitur versus rasio ukuran sampel untuk menunjukkan bahwa ini adalah pengecualian, ada kemungkinan bahwa pendekatan seperti itu akan memiliki sifat yang tidak memuaskan. Saya tidak mengetahui adanya bukti positif semacam itu untuk pendekatan ini, tetapi mungkin orang lain. Mengingat bahwa ada alternatif yang masuk akal yang mencapai semua tujuan yang diinginkan (misalnya jaring elastis), maka pendekatan ini sulit untuk dibenarkan menggunakan pendekatan ad-hoc yang dicurigai tersebut.

Björn
sumber
3
setuju .... intinya adalah semuanya harus masuk dalam kerangka crossvalidation ... jadi Anda harus melakukan beberapa validasi silang bersarang untuk melakukan dua regularisasi terpisah (jika tidak Anda akan mengalami masalah), dan crossvalidation bersarang menggunakan lebih sedikit data untuk setiap bagian.
seanv507
1

Selain semua jawaban di atas: Dimungkinkan untuk menghitung uji permutasi chi2 yang tepat untuk tabel 2x2 dan rxc. Alih-alih membandingkan nilai yang diamati dari statistik chi-square dengan distribusi chi-square asimptotik, kita perlu membandingkannya dengan distribusi permutasi yang tepat. Kita perlu mengubah data kita dengan semua cara yang memungkinkan menjaga margin baris dan kolom konstan. Untuk setiap set data yang diijinkan, kami menghitung statistik chi2. Kami kemudian membandingkan chi2 yang diamati dengan statistik chi2 (yang diurutkan) Peringkat statistik uji nyata di antara statistik uji chi2 permutasi memberikan nilai-p.

Stats_Monkey
sumber
Bisakah Anda menambahkan detail pada jawaban Anda? Dalam bentuk saat ini, tidak jelas bagaimana seseorang akan menghitung uji chi2 yang tepat.
Antoine Vernet