Menurut dokumentasi objek StandardScaler di scikit-learn:
Misalnya banyak elemen yang digunakan dalam fungsi objektif dari algoritma pembelajaran (seperti kernel RBF dari Support Vector Machines atau L1 dan L2 regularizer model linier) mengasumsikan bahwa semua fitur berpusat di sekitar 0 dan memiliki varian dalam urutan yang sama. Jika suatu fitur memiliki varians yang urutan besarnya lebih besar dari yang lain, itu mungkin mendominasi fungsi objektif dan membuat estimator tidak dapat belajar dari fitur lain dengan benar seperti yang diharapkan.
Saya harus mengukur fitur saya sebelum klasifikasi. Apakah ada cara mudah untuk menunjukkan mengapa saya harus melakukan ini? Referensi ke artikel ilmiah akan lebih baik. Saya sudah menemukan satu tetapi mungkin ada banyak lainnya.
Tergantung pada kernel apa yang Anda gunakan. Sejauh ini yang paling umum digunakan (terlepas dari linear) adalah kernel gaussian, yang memiliki bentuk
SVM mengambil fungsi ini dan menggunakannya untuk membandingkan kesamaan suatu titik ( ) dengan setiap titik lain dalam pelatihan yang ditetapkan dengan menjumlahkan perbedaannya sebagai:x1
di mana adalah contoh Anda dan nilai-nilai adalah landmark.x l
Jika fitur berkisar 0 - 50.000 sedangkan fitur berkisar 0 - 0,01, Anda dapat melihat bahwa akan mendominasi jumlah itu sementara hampir tidak memiliki dampak. Untuk alasan ini, perlu mengukur fitur sebelum menerapkan kernal.x1 x2 x1 x2
Jika Anda ingin mempelajari lebih lanjut, saya sarankan modul 12 (Mendukung Mesin Vektor) dari kursus online Stanford dalam pembelajaran mesin di Coursera (gratis dan tersedia kapan saja): https://www.coursera.org/course/ml
sumber