Saya memiliki kumpulan data yang berisi, di antara banyak fitur, koordinat GPS (lintang dan bujur). Saya ingin menggunakan set data ini untuk mengeksplorasi masalah seperti: (1) menghitung ETA untuk mendorong antara titik awal dan akhir; dan (2) memperkirakan jumlah kejahatan untuk suatu titik tertentu.
Saya ingin menggunakan model regresi linier. Namun, dapatkah saya menggunakan koordinat GPS ini secara langsung dalam model linier?
Lintang dan bujur tidak memiliki properti ordinal , seperti dengan usia seseorang. Sebagai contoh, dua poin (40.805996, -96.681473) dan (41.226682, -95.986587) tampaknya tidak memiliki urutan yang berarti. Mereka hanya poin di ruang angkasa. Saya berpikir untuk menggantinya dengan kode pos AS yang kategoris dan kemudian melakukan pengkodean satu-panas , tetapi itu akan menghasilkan banyak variabel.
sumber
Jawaban:
Anda tidak dapat menggunakannya secara langsung, karena tidak mungkin ada hubungan linear yang benar kecuali Anda mencari untuk memprediksi "seberapa jauh timur atau utara" seseorang. Seperti yang disebutkan dalam komentar, Anda perlu mengubahnya menjadi zona. Jika Anda ingin membuatnya tetap sederhana, Anda bisa menggunakan algoritme pengelompokan kNN dengan jumlah cluster potensial yang rendah dan kemudian menetapkan setiap instance fitur baru dengan ID cluster, dan kemudian meng-encode satu-hot itu.
Anda mungkin juga ingin membaca tentang bagaimana orang menginterpolasi koordinat untuk memprediksi nilai di seluruh peta. Contoh pertama adalah dengan stasiun suhu, tetapi Anda juga bisa membayangkan itu menjadi "zona panas" untuk kejahatan.
( DOCS )
sumber
Anda dapat melakukan apa pun yang diinginkan hati Anda, tetapi kecuali jika model Anda memprediksi perbedaan suhu atau waktu, saya tidak dapat menemukan variabel target lain yang hanya bergantung pada koordinat.
Apa yang mungkin ingin Anda lakukan, adalah menggunakan sumber data eksternal dan memperkaya data Anda dengan Negara / Kode pos / iklim / fitur geografis lainnya yang akan membantu model Anda bekerja.
sumber
Koordinat GPS dapat langsung dikonversi ke geohash . Geohash membagi Bumi menjadi "ember" dengan ukuran berbeda berdasarkan jumlah digit (kode Geohash pendek membuat area besar dan kode lebih panjang untuk area lebih kecil).
Geohash adalah nomor tunggal yang dapat digunakan sebagai fitur dalam model.
Geohash hanya berlaku untuk seluruh dunia, kode pos tidak.
sumber