Saya menjalankan model regresi baik dengan Lasso dan Ridge (untuk memprediksi variabel hasil diskrit mulai dari 0-5). Sebelum menjalankan model, saya menggunakan SelectKBest
metode scikit-learn
untuk mengurangi set fitur dari 250 menjadi 25 . Tanpa pemilihan fitur awal, Lasso dan Ridge menghasilkan skor akurasi yang lebih rendah [yang mungkin disebabkan oleh ukuran sampel yang kecil, 600]. Juga, perhatikan bahwa beberapa fitur berkorelasi.
Setelah menjalankan model, saya amati bahwa akurasi prediksi hampir sama dengan Lasso dan Ridge. Namun, ketika saya memeriksa 10 fitur pertama setelah memesannya dengan nilai absolut dari koefisien, saya melihat bahwa ada paling banyak% 50 tumpang tindih.
Artinya, mengingat pentingnya fitur yang berbeda ditugaskan oleh masing-masing metode, saya mungkin memiliki interpretasi yang sama sekali berbeda berdasarkan model yang saya pilih.
Biasanya, fitur-fitur tersebut mewakili beberapa aspek perilaku pengguna di situs web. Oleh karena itu, saya ingin menjelaskan temuan dengan menyoroti fitur (perilaku pengguna) dengan kemampuan prediksi yang lebih kuat vs fitur yang lebih lemah (perilaku pengguna). Namun, saya tidak tahu bagaimana bergerak maju pada saat ini. Bagaimana saya harus mendekati untuk menafsirkan model? Misalnya, harus menggabungkan keduanya dan menyorot yang tumpang tindih, atau haruskah saya pergi dengan Lasso karena memberikan lebih banyak interpretabilitas?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
Jawaban:
Regresi punggungan mendorong semua koefisien menjadi kecil. Lasso mendorong banyak koefisien [**] menjadi nol, dan beberapa non-nol. Keduanya akan mengurangi akurasi pada set pelatihan, tetapi meningkatkan prediksi dengan beberapa cara:
Anda bisa mendapatkan berbagai pilihan koefisien jika data Anda sangat berkorelasi. Jadi, Anda mungkin memiliki 5 fitur yang berkorelasi:
[*] untuk definisi makna 'pilih': memberikan koefisien bukan nol, yang masih agak melambai, karena koefisien regresi ridge cenderung semuanya tidak nol, tetapi misalnya beberapa mungkin seperti 1e-8 , dan yang lainnya mungkin misal 0,01
Nuansa [**]: seperti yang ditunjukkan oleh Richard Hardy, untuk beberapa kasus penggunaan, nilai dapat dipilih yang akan menghasilkan semua koefisien LASSO menjadi nol, tetapi dengan sedikit penyusutanλ
sumber