Saya sedang mempelajari Data Scaling, dan khususnya metode Standardisasi. Saya sudah mengerti matematika di baliknya, tetapi tidak jelas bagi saya mengapa penting untuk memberikan fitur mean nol dan varian unit.
Bisakah Anda jelaskan?
Saya sedang mempelajari Data Scaling, dan khususnya metode Standardisasi. Saya sudah mengerti matematika di baliknya, tetapi tidak jelas bagi saya mengapa penting untuk memberikan fitur mean nol dan varian unit.
Bisakah Anda jelaskan?
Jawaban:
Pertanyaan apakah dan mengapa itu penting, tergantung pada konteksnya.
Untuk pohon keputusan yang didorong oleh gradien, misalnya, itu tidak penting - algoritma ML ini "tidak peduli" tentang transformasi monoton ke data; mereka hanya mencari poin untuk membaginya.
Untuk prediktor linier, misalnya, penskalaan dapat meningkatkan interpretabilitas hasil. Jika Anda ingin menganggap besarnya koefisien sebagai indikasi seberapa besar fitur mempengaruhi hasil, maka fitur tersebut harus diskalakan entah bagaimana ke area yang sama.
Untuk beberapa prediktor, khususnya NN, penskalaan, dan penskalaan khusus untuk rentang tertentu, dapat menjadi penting karena alasan teknis. Beberapa lapisan menggunakan fungsi yang secara efektif berubah hanya dalam beberapa area (mirip dengan fungsi keluarga hiperbolik ), dan jika fitur terlalu banyak di luar jangkauan, saturasi dapat terjadi. Jika ini terjadi, turunan numerik akan bekerja buruk, dan algoritme mungkin tidak dapat menyatu ke titik yang baik.
sumber
Dalam kasus nol berarti, itu karena beberapa model pembelajaran mesin tidak memasukkan istilah bias dalam representasi mereka sehingga kami harus memindahkan data sekitar asal sebelum memasukkannya ke algoritma untuk terkompensasi karena kurangnya istilah bias. Dalam kasus varian unit, itu karena banyak algoritma pembelajaran mesin menggunakan beberapa jenis jarak (misalnya Euclidean) untuk memutuskan atau memprediksi. Jika fitur tertentu memiliki nilai luas (mis. Varians besar), jarak akan sangat dipengaruhi oleh fitur itu dan efek dari fitur lain akan diabaikan. Omong-omong, beberapa algoritma optimisasi (termasuk gradient descent) memiliki kinerja yang lebih baik ketika data distandarisasi.
sumber
Namun, orang dapat menimbulkan keraguan di sini bahwa bahkan jika fitur tidak dinormalisasi maka bobot yang diberikan padanya saat belajar dapat membantu kumpulan data konvergen ke output yang diharapkan saat pelatihan. Masalahnya adalah ini akan sangat lama untuk melatih dan membuahkan hasil.
Oleh karena itu, disarankan untuk membawa semua fitur ke skala yang sama cukup kecil untuk dilatih dengan mudah. Tautan di bawah ini juga membahas konsep serupa. /stats/41704/how-and-why-do-normalalization-and-feature-scaling-work
sumber