Saya ingin melatih SVM untuk mengklasifikasikan kasus (BENAR / SALAH) berdasarkan 20 atribut. Saya tahu bahwa beberapa atribut tersebut sangat berkorelasi. Karena itu pertanyaan saya adalah: apakah SVM sensitif terhadap korelasi, atau redundansi, di antara fitur-fiturnya? Ada referensi?
svm
multicollinearity
kernel-trick
pengguna7064
sumber
sumber
Jawaban:
Kernel linear: Efeknya mirip dengan multikolinieritas dalam regresi linier. Model yang Anda pelajari mungkin tidak stabil terhadap variasi kecil dalam rangkaian pelatihan, karena vektor bobot yang berbeda akan memiliki keluaran yang serupa. Pelatihan menetapkan prediksi, meskipun, akan cukup stabil, dan akan menguji prediksi jika mereka berasal dari distribusi yang sama.
Kernel RBF: Kernel RBF hanya melihat jarak antara titik data. Jadi, bayangkan Anda benar-benar memiliki 11 atribut, tetapi salah satunya diulang 10 kali (kasus yang cukup ekstrim). Kemudian atribut yang diulang akan menyumbang 10 kali lipat jarak dari atribut lainnya, dan model yang dipelajari mungkin akan jauh lebih terpengaruh oleh fitur itu.
Salah satu cara sederhana untuk mengurangi korelasi dengan kernel RBF adalah dengan menggunakan jarak Mahalanobis: , di mana adalah estimasi matriks kovarians sampel. Secara setara, petakan semua vektor Anda ke dan kemudian gunakan kernel RBF biasa, di mana sedemikian rupa sehingga , misalnya dekomposisi Cholesky dari .d(x,y)=(x−y)TS−1(x−y)−−−−−−−−−−−−−−−√ S x Cx C S−1=CTC S−1
sumber