Di kelas pembelajaran mesin saya, kami telah belajar tentang bagaimana regresi LASSO sangat baik dalam melakukan pemilihan fitur, karena menggunakan regularisasi .
Pertanyaan saya: apakah orang biasanya menggunakan model LASSO hanya untuk melakukan pemilihan fitur (dan kemudian melanjutkan untuk membuang fitur-fitur tersebut ke model pembelajaran mesin yang berbeda), atau apakah mereka biasanya menggunakan LASSO untuk melakukan pemilihan fitur dan regresi yang sebenarnya?
Sebagai contoh, anggaplah Anda ingin melakukan regresi ridge, tetapi Anda percaya bahwa banyak fitur Anda tidak terlalu baik. Apakah bijaksana untuk menjalankan LASSO, hanya mengambil fitur yang tidak mendekati nol oleh algoritma, dan kemudian hanya menggunakan yang ada di dumping data Anda ke dalam model regresi ridge? Dengan cara ini, Anda mendapatkan manfaat dari regularisasi untuk melakukan pemilihan fitur, tetapi juga manfaat dari regularisasi untuk mengurangi overfitting. (Saya tahu bahwa ini pada dasarnya sama dengan Regresi Jaring Elastis, tetapi sepertinya Anda tidak perlu memiliki istilah dan dalam fungsi tujuan regresi akhir.)
Selain dari regresi, apakah ini strategi yang bijaksana ketika melakukan tugas klasifikasi (menggunakan SVM, jaringan saraf, hutan acak, dll.)?
Jawaban:
Hampir semua pendekatan yang melakukan beberapa bentuk pemilihan model dan kemudian melakukan analisis lebih lanjut seolah-olah tidak ada pemilihan model yang sebelumnya terjadi biasanya memiliki proporsi yang buruk. Kecuali ada argumen teoritis yang kuat yang didukung oleh bukti dari misalnya studi simulasi luas untuk ukuran sampel yang realistis dan fitur versus rasio ukuran sampel untuk menunjukkan bahwa ini adalah pengecualian, ada kemungkinan bahwa pendekatan seperti itu akan memiliki sifat yang tidak memuaskan. Saya tidak mengetahui adanya bukti positif semacam itu untuk pendekatan ini, tetapi mungkin orang lain. Mengingat bahwa ada alternatif yang masuk akal yang mencapai semua tujuan yang diinginkan (misalnya jaring elastis), maka pendekatan ini sulit untuk dibenarkan menggunakan pendekatan ad-hoc yang dicurigai tersebut.
sumber
Selain semua jawaban di atas: Dimungkinkan untuk menghitung uji permutasi chi2 yang tepat untuk tabel 2x2 dan rxc. Alih-alih membandingkan nilai yang diamati dari statistik chi-square dengan distribusi chi-square asimptotik, kita perlu membandingkannya dengan distribusi permutasi yang tepat. Kita perlu mengubah data kita dengan semua cara yang memungkinkan menjaga margin baris dan kolom konstan. Untuk setiap set data yang diijinkan, kami menghitung statistik chi2. Kami kemudian membandingkan chi2 yang diamati dengan statistik chi2 (yang diurutkan) Peringkat statistik uji nyata di antara statistik uji chi2 permutasi memberikan nilai-p.
sumber