Saya sedang mengerjakan dataset fiksi dengan 25 fitur. Dua fitur adalah garis lintang dan garis bujur suatu tempat dan lainnya adalah nilai pH, ketinggian, kecepatan angin dll dengan rentang yang bervariasi. Saya dapat melakukan normalisasi pada fitur-fitur lain tetapi bagaimana cara mendekati fitur lintang / bujur?
Sunting: Ini adalah masalah untuk memprediksi hasil pertanian. Saya akan berpikir lat / panjang sangat penting karena lokasi dapat menjadi vital dalam prediksi dan karenanya dilema.
machine-learning
python
feature-engineering
feature-scaling
normalization
AllThingsScience
sumber
sumber
Jawaban:
Koordinat lat panjang memiliki masalah bahwa mereka adalah 2 fitur yang mewakili ruang tiga dimensi. Ini berarti bahwa koordinat panjang berjalan di sekitar, yang berarti dua nilai paling ekstrem sebenarnya sangat berdekatan. Saya telah menangani masalah ini beberapa kali dan apa yang saya lakukan dalam kasus ini adalah memetakannya ke koordinat x, y dan z. Ini berarti titik dekat dalam 3 dimensi ini juga dekat dalam kenyataan. Bergantung pada use case Anda dapat mengabaikan perubahan ketinggian dan memetakannya ke bidang yang sempurna. Fitur-fitur ini kemudian dapat distandarisasi dengan benar.
Untuk mengklarifikasi (dirangkum dari komentar):
sumber