Saya mendapatkan tiga model tereduksi dari model full asli yang menggunakan
- seleksi ke depan
- eliminasi mundur
- Teknik hukuman L1 (LASSO)
Untuk model yang diperoleh dengan menggunakan seleksi maju / eliminasi mundur, saya memperoleh estimasi kesalahan prediksi prediksi yang digunakan CVlm
dalam paket yang DAAG
tersedia di R
. Untuk model yang dipilih melalui LASSO, saya menggunakan cv.glm
.
Kesalahan prediksi untuk LASSO kurang dari yang diperoleh untuk yang lain. Jadi model yang diperoleh melalui LASSO tampaknya lebih baik dalam hal kapasitas prediksi dan variabilitasnya. Apakah ini fenomena umum yang selalu terjadi atau apakah itu masalah khusus? Apa alasan teoretis untuk ini jika ini adalah fenomena umum?
cross-validation
model-selection
lasso
stepwise-regression
pengguna41512
sumber
sumber
Jawaban:
Pemilihan model LASSO dan maju / mundur keduanya memiliki kekuatan dan keterbatasan. Tidak ada rekomendasi jauh yang bisa dibuat. Simulasi selalu dapat dieksplorasi untuk mengatasi hal ini.
Keduanya dapat dipahami dalam arti dimensionalitas: mengacu pada jumlah parameter model dan jumlah pengamatan. Jika Anda dapat menyesuaikan model menggunakan pemilihan model mundur , Anda mungkin tidak memiliki . Dalam hal itu, model "pas terbaik" adalah yang menggunakan semua parameter ... ketika divalidasi secara internal! Ini hanya masalah overfitting.hal n p ≫ n
Overfitting diperbaiki menggunakan split sample cross validation (CV) untuk evaluasi model. Karena Anda tidak menggambarkan ini, saya menganggap Anda tidak melakukannya. Tidak seperti pemilihan model bertahap, LASSO menggunakan parameter penyetelan untuk menghukum jumlah parameter dalam model. Anda dapat memperbaiki parameter tuning, atau menggunakan proses berulang yang rumit untuk memilih nilai ini. Secara default , LASSO melakukan yang terakhir. Ini dilakukan dengan CV untuk meminimalkan MSE prediksi. Saya tidak mengetahui adanya implementasi pemilihan model bertahap yang menggunakan teknik canggih seperti itu, bahkan BIC sebagai kriteria akan menderita dari bias validasi internal. Menurut akun saya, itu secara otomatis memberi LASSO leverage atas pemilihan model bertahap "out-of-the-box".
Terakhir, pemilihan model bertahap dapat memiliki kriteria yang berbeda untuk memasukkan / tidak termasuk regresi yang berbeda. Jika Anda menggunakan nilai-p untuk uji Wald parameter model tertentu atau model yang dihasilkan R ^ 2, Anda tidak akan melakukannya dengan baik, sebagian besar karena bias validasi internal (sekali lagi, dapat diperbaiki dengan CV). Saya merasa mengejutkan bahwa ini masih merupakan cara model-model tersebut cenderung diimplementasikan. AIC atau BIC adalah kriteria yang jauh lebih baik untuk pemilihan model.
Ada sejumlah masalah dengan masing-masing metode. Masalah pemilihan model stepwise jauh lebih baik dipahami, dan jauh lebih buruk daripada LASSO. Masalah utama yang saya lihat dengan pertanyaan Anda adalah bahwa Anda menggunakan alat pemilihan fitur untuk mengevaluasi prediksi . Mereka adalah tugas yang berbeda. LASSO lebih baik untuk pemilihan fitur atau pemilihan model yang jarang. Regresi Ridge dapat memberikan prediksi yang lebih baik karena menggunakan semua variabel.
Kekuatan besar LASSO adalah bahwa ia dapat memperkirakan model di mana , seperti halnya kasus maju (tetapi tidak mundur) regresi bertahap. Dalam kedua kasus, model ini dapat efektif untuk prediksi hanya ketika ada beberapa prediktor yang sangat kuat. Jika hasil lebih baik diprediksi oleh banyak prediktor lemah, maka ridge regresi atau mengantongi / meningkatkan akan mengungguli kedua bertahap regresi maju dan Lasso oleh tembakan panjang. LASSO jauh lebih cepat daripada memajukan regresi bertahap.p ≫ n
Jelas ada banyak tumpang tindih antara pemilihan fitur dan prediksi, tetapi saya tidak pernah memberi tahu Anda tentang seberapa baik kunci pas berfungsi sebagai palu. Secara umum, untuk prediksi dengan sejumlah koefisien model dan , saya lebih suka LASSO daripada meneruskan pemilihan model bertahap.p ≫ n
sumber
Anda ingin memilih subset prediktor berdasarkan beberapa kriteria. Mungkin AIC dalam sampel atau disesuaikan R ^ 2, atau validasi silang, tidak masalah.
Anda bisa menguji setiap kombinasi subset prediktor tunggal dan memilih subset terbaik. Namun
Anda dapat menggunakan seleksi maju bertahap
Anda bisa menggunakan eliminasi mundur
Anda bisa menggunakan LASSO
Mengenai pertanyaan Anda tentang mengapa LASSO berkinerja lebih baik pada data Anda di CV
Intinya, LASSO memberi Anda regularisasi dan pemilihan subset yang efisien, terutama ketika Anda memiliki banyak prediktor.
BTW Anda dapat melakukan LASSO dan memilih model Anda menggunakan CV (paling umum) tetapi juga menggunakan AIC atau kriteria lainnya. Jalankan model Anda dengan regularisasi L1 dan tanpa kendala, kemudian secara bertahap kencangkan kendala hingga AIC mencapai minimum, atau kesalahan CV, atau kriteria pilihan Anda. Lihat http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html
sumber