Bisakah seseorang tolong jelaskan kepada saya mengapa Anda perlu menormalkan data saat menggunakan K tetangga terdekat.
Saya sudah mencoba mencari ini, tetapi saya masih belum bisa memahaminya.
Saya menemukan tautan berikut:
https://discuss.analyticsvidhya.com/t/why-it-is-n perlu-to-normalisasi-in-knn/2715
Namun dalam penjelasan ini, saya tidak mengerti mengapa kisaran yang lebih besar di salah satu fitur mempengaruhi prediksi.
k-nearest-neighbour
bugyb
sumber
sumber
Jawaban:
Algoritma k-tetangga terdekat bergantung pada suara terbanyak berdasarkan keanggotaan kelas sampel 'k' terdekat untuk titik uji yang diberikan. Kedekatan sampel biasanya didasarkan pada jarak Euclidean.
Pertimbangkan masalah klasifikasi dua kelas sederhana, di mana sampel Kelas 1 dipilih (hitam) bersama dengan 10 tetangga terdekatnya (terisi hijau). Pada gambar pertama, data tidak dinormalisasi, sedangkan pada yang kedua adalah data.
Normalisasi menyelesaikan masalah ini!
sumber
Misalkan Anda memiliki kumpulan data (m "contoh" dengan n "fitur") dan semua kecuali satu dimensi fitur memiliki nilai ketat antara 0 dan 1, sedangkan dimensi fitur tunggal memiliki nilai yang berkisar antara -1000000 hingga 1000000. Saat mengambil jarak euclidean antara pasangan "contoh", nilai-nilai dimensi fitur yang berkisar antara 0 dan 1 dapat menjadi tidak informatif dan algoritma pada dasarnya akan bergantung pada dimensi tunggal yang nilainya jauh lebih besar. Cukup kerjakan beberapa contoh perhitungan jarak euclidean dan Anda dapat memahami bagaimana skala memengaruhi perhitungan tetangga terdekat.
sumber