Cara untuk berurusan dengan fitur bujur / lintang [tertutup]

18

Saya sedang mengerjakan dataset fiksi dengan 25 fitur. Dua fitur adalah garis lintang dan garis bujur suatu tempat dan lainnya adalah nilai pH, ketinggian, kecepatan angin dll dengan rentang yang bervariasi. Saya dapat melakukan normalisasi pada fitur-fitur lain tetapi bagaimana cara mendekati fitur lintang / bujur?

Sunting: Ini adalah masalah untuk memprediksi hasil pertanian. Saya akan berpikir lat / panjang sangat penting karena lokasi dapat menjadi vital dalam prediksi dan karenanya dilema.

AllThingsScience
sumber
Bisakah Anda menjelaskan mengapa Anda tidak berpikir bahwa Anda dapat menormalkan fitur-fitur itu? Agaknya mereka numerik sama dengan fitur lainnya, sehingga Anda dapat mengambil mean / sd? Apakah kekhawatiran Anda tentang mengukur jarak antara lokasi secara alami? Jika demikian, apakah data mencakup area kecil (dengan nilai yang sama) atau apakah itu bersifat global?
Neil Slater
@ NeilSlater Hanya saja secara intuitif tidak masuk akal bagi saya untuk menormalkan fitur-fitur ini. Apakah informasi tidak akan hilang jika dinormalisasi? Saya memiliki dataset yang mencakup negara-negara Amerika.
AllThingsScience
Informasi apa yang menurut Anda akan hilang? Mungkin tidak akan benar-benar hilang, tetapi jika Anda menjelaskan dalam pertanyaan Anda apa kekhawatiran Anda, seseorang akan dapat menjawab. Tidak tahu lagi, saya hanya akan menormalisasi terlepas - untuk nilai-nilai global sepenuhnya dan beberapa masalah (di mana jarak antara titik-titik penting) saya mungkin membuat fitur koordinat kartesian 3d dari long / lat.
Neil Slater
Apa pertanyaanmu di sini? Apa yang Anda coba cari tahu dari data itu? Korelasi? Clustering? Klasifikasi? Ramalan? Interpolasi? Seberapa penting lokasi bagi model Anda?
Spacedman
@Spacedman Silakan lihat edit.
AllThingsScience

Jawaban:

24

Koordinat lat panjang memiliki masalah bahwa mereka adalah 2 fitur yang mewakili ruang tiga dimensi. Ini berarti bahwa koordinat panjang berjalan di sekitar, yang berarti dua nilai paling ekstrem sebenarnya sangat berdekatan. Saya telah menangani masalah ini beberapa kali dan apa yang saya lakukan dalam kasus ini adalah memetakannya ke koordinat x, y dan z. Ini berarti titik dekat dalam 3 dimensi ini juga dekat dalam kenyataan. Bergantung pada use case Anda dapat mengabaikan perubahan ketinggian dan memetakannya ke bidang yang sempurna. Fitur-fitur ini kemudian dapat distandarisasi dengan benar.

Untuk mengklarifikasi (dirangkum dari komentar):

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 
Jan van der Vegt
sumber
1
Ini sangat menarik. Terima kasih! Bisakah Anda mengonfirmasi jika ini adalah formula untuk konversi? x = R * cos (lat) * cos (lon), y = R * cos (lat) * sin (lon), z = R * sin (lat)
AllThingsScience
Saya tidak memiliki akses ke kode saya saat ini tetapi kelihatannya benar. Anda tidak memerlukan R karena Anda akan melakukan standarisasi;)
Jan van der Vegt
Sempurna! Terima kasih.
AllThingsScience