Mengapa menambah jumlah fitur mengurangi kinerja?

12

Saya mencoba mendapatkan intuisi mengapa peningkatan jumlah fitur dapat mengurangi kinerja. Saat ini saya menggunakan classifier LDA yang berkinerja lebih baik secara bivariat di antara fitur-fitur tertentu tetapi lebih buruk ketika melihat lebih banyak fitur. Akurasi klasifikasi saya dilakukan dengan menggunakan xval bertingkat 10 kali lipat.

Apakah ada kasus sederhana ketika sebuah classifier akan bekerja lebih baik secara univariat daripada bivaraiately untuk mendapatkan intuisi agak fisik atau spasial dari apa yang terjadi di dimensi yang lebih tinggi ini?

dvreed77
sumber
8
Sebagai komentar cepat, menambahkan prediktor yang tidak relevan dapat memperburuk kinerja pada data baru - meningkatkan variasi prediksi (over fitting). Ini karena Anda akhirnya pas untuk kebisingan dan mencairkan "sinyal sebenarnya".
B_Miner

Jawaban:

9

Lihat " Masalah dimensi: Contoh sederhana " - artikel yang sangat pendek dan sangat tua oleh GV Trunk. Dia menganggap masalah dua kelas, dengan distribusi kondisional kelas Gaussian di mana fitur-fiturnya semua relevan tetapi dengan relevansi yang menurun. Dia menunjukkan bahwa tingkat kesalahan dari classifier dilatih pada sampel hingga konvergen ke 0,5, sedangkan kesalahan Bayes mendekati 0, ketika jumlah fitur meningkat.

Innuo
sumber
(+1) Itu referensi kecil yang lucu.
kardinal
2

Ini dinamai " Kutukan Dimensi ". Saya tidak tahu apakah ada alasan khusus untuk LDA tetapi secara umum memiliki banyak dimensi pada hasil vektor fitur dengan kebutuhan batas keputusan yang lebih kompleks. Memiliki batas-batas yang kompleks juga dilengkapi dengan pertanyaan "Dalam tingkat apa?" karena kami juga menganggap terlalu pas. Sebagai poin lain, dengan dimensi tambahan kompleksitas algoritma pembelajaran juga meningkat. Dengan demikian bekerja dengan algoritma pembelajaran yang relatif lambat dengan vektor fitur yang besar membuat acara pekerjaan Anda lebih buruk. Selain dengan dimensi Anda mungkin telah meningkatkan kemungkinan Anda memiliki fitur yang berkorelasi di mana tidak baik untuk banyak algoritma pembelajaran seperti Neural Net atau yang lainnya.

Anda dapat menghitung alasan lain yang berada di bawah "Kutukan Dimensi" tetapi faktanya adalah untuk memiliki jumlah instance yang cukup dengan vektor fitur ringkas yang diproses oleh beberapa rutin pemilihan fitur.

erogol
sumber