Mengapa pemilihan fitur penting, untuk tugas klasifikasi?

11

Saya belajar tentang pemilihan fitur. Saya bisa melihat mengapa itu penting dan bermanfaat, untuk pembuatan model. Tetapi mari kita fokus pada tugas-tugas pembelajaran (klasifikasi) yang diawasi. Mengapa pemilihan fitur penting, untuk tugas klasifikasi?

Saya melihat banyak literatur yang ditulis tentang pemilihan fitur dan penggunaannya untuk pembelajaran yang diawasi, tetapi ini membingungkan saya. Pemilihan fitur adalah tentang mengidentifikasi fitur mana yang harus dibuang. Secara intuitif, membuang beberapa fitur tampaknya merugikan diri sendiri: itu membuang informasi. Sepertinya melempar informasi seharusnya tidak membantu.

Dan bahkan jika menghapus beberapa fitur memang membantu, jika kita membuang beberapa fitur dan kemudian memasukkan sisanya ke dalam algoritma pembelajaran yang diawasi, mengapa kita perlu melakukannya sendiri, daripada membiarkan algoritma pembelajaran yang diawasi menanganinya? Jika beberapa fitur tidak membantu, bukankah seharusnya ada algoritma pembelajaran yang diawasi yang layak secara implisit menemukan itu dan mempelajari model yang tidak menggunakan fitur itu?

Jadi secara intuitif saya akan berharap bahwa pemilihan fitur akan menjadi latihan sia-sia yang tidak pernah membantu dan kadang-kadang bisa menyakitkan. Tetapi fakta bahwa ini sangat banyak digunakan dan ditulis tentang membuat saya curiga bahwa intuisi saya salah. Adakah yang bisa memberikan intuisi mengapa pemilihan fitur berguna dan penting, ketika melakukan pembelajaran yang diawasi? Mengapa ini meningkatkan kinerja pembelajaran mesin? Apakah ini tergantung pada classifier yang saya gunakan?

DW
sumber

Jawaban:

10

Intuisi Anda cukup benar. Dalam kebanyakan situasi, pemilihan fitur mewakili keinginan untuk penjelasan sederhana yang dihasilkan dari tiga kesalahpahaman:

  1. Analis tidak menyadari bahwa rangkaian fitur "terpilih" cukup tidak stabil, yaitu tidak kuat, dan bahwa proses seleksi ketika dilakukan pada dataset lain akan menghasilkan serangkaian fitur yang sangat berbeda. Data sering tidak memiliki konten informasi yang diperlukan untuk memilih fitur "benar". Masalah ini semakin buruk jika ada linearitas bersama.
  2. Jalur, mekanisme, dan proses rumit dalam eksperimen yang tidak terkontrol; perilaku dan sifat manusia itu kompleks dan tidak parsimoneous.
  3. Keakuratan prediksi dirugikan dengan meminta data untuk memberi tahu Anda apa saja fitur penting dan apa hubungannya dengan untuk yang "penting". Lebih baik "menggunakan sedikit dari setiap variabel" daripada menggunakan semua variabel dan tidak ada untuk yang lain (yaitu, menggunakan susut / hukuman).Y

Beberapa cara untuk mempelajari ini:

  1. Lakukan lebih banyak perbandingan akurasi prediksi antara laso , jaring elastis , dan penalti kuadratik standar (regresi ridge)
  2. Langkah-langkah penting variabel bootstrap dari hutan acak dan periksa stabilitasnya
  3. Hitung interval kepercayaan bootstrap pada jajaran fitur potensial, misalnya, pada jajaran parsial tes asosiasi (atau hal-hal seperti univariat Spearman atau Somers' ) dan melihat bahwa interval kepercayaan ini sangat luas , secara langsung memberi tahu Anda tentang kesulitan tugas. Catatan kursus saya yang ditautkan dari http://biostat.mc.vanderbilt.edu/rms memiliki contoh urutan peringkat bootstrap dari alat prediksi menggunakan OLS.χ2ρDxy

Semua ini berlaku untuk klasifikasi dan konsep prediksi yang lebih umum dan berguna.

Frank Harrell
sumber