Saya ingin menjalankan beberapa model pembelajaran mesin seperti hutan acak, peningkatan gradien, atau SVM pada dataset saya. Ada lebih dari 200 variabel prediktor dalam dataset saya dan kelas target saya adalah variabel biner.
Apakah saya perlu menjalankan pemilihan fitur sebelum pemasangan model? Apakah itu mempengaruhi kinerja model secara signifikan atau tidak ada banyak perbedaan jika saya langsung mencocokkan model menggunakan semua variabel prediktor?
Jawaban:
Pemilihan fitur mungkin mempertimbangkan tahapan yang harus dihindari. Anda harus menghabiskan waktu perhitungan untuk menghapus fitur dan benar-benar kehilangan data dan metode yang harus Anda lakukan untuk memilih fitur tidak optimal karena masalahnya adalah NP-Complete . Menggunakannya tidak terdengar seperti tawaran yang tidak bisa Anda tolak.
Jadi, apa manfaatnya menggunakannya?
Sekarang untuk kasus spesifik Anda: Saya sarankan Anda mulai menghitung korelasi antara fitur dan konsep. Komputasi korelasi di antara semua fitur juga informatif. Perhatikan bahwa ada banyak jenis korelasi yang berguna (misalnya, Pearson , Informasi bersama ) dan banyak atribut yang mungkin mempengaruhi mereka (misalnya, jarang, konsep tidak seimbang). Memeriksa mereka alih-alih secara membabi buta dengan algoritma pemilihan fitur mungkin menghemat banyak waktu di masa depan.
Saya tidak berpikir bahwa Anda akan memiliki banyak masalah waktu berjalan dengan dataset Anda. Namun, rasio sampel / fitur Anda tidak terlalu tinggi sehingga Anda dapat mengambil manfaat dari pemilihan fitur.
Pilih penggolong dengan kompleksitas rendah (misalnya, regresi linier, pohon keputusan kecil) dan gunakan sebagai patokan. Cobalah pada set data lengkap dan pada beberapa dataset dengan subset fitur. Tolok ukur seperti itu akan membimbing Anda dalam penggunaan pemilihan fitur. Anda akan memerlukan panduan seperti itu karena ada banyak opsi (misalnya, jumlah fitur untuk dipilih, algoritma pemilihan fitur) dan karena tujuan biasanya adalah predikasi dan bukan pemilihan fitur sehingga umpan balik setidaknya satu langkah lagi.
sumber
Saya telah memposting pertanyaan yang sangat mirip pada Cross Validated beberapa bulan yang lalu dan mendapat banyak sekali tanggapan. Baca tanggapan dan komentarnya.
/stats/215154/variable-selection-for-predictive-modeling-really-needed-in-2016
sumber
Ya, pemilihan fitur adalah salah satu tugas paling penting untuk masalah pembelajaran mesin, setelah melakukan pertengkaran dan pembersihan data. Anda dapat menemukan fungsi yang menerapkan proses pemilihan fitur menggunakan fitur penting XGBOOST di sini.
https://github.com/abhisheksharma4194/Machine-learning
sumber