Dapatkah koordinat GPS (lintang dan bujur) digunakan sebagai fitur dalam model linier?

10

Saya memiliki kumpulan data yang berisi, di antara banyak fitur, koordinat GPS (lintang dan bujur). Saya ingin menggunakan set data ini untuk mengeksplorasi masalah seperti: (1) menghitung ETA untuk mendorong antara titik awal dan akhir; dan (2) memperkirakan jumlah kejahatan untuk suatu titik tertentu.

Saya ingin menggunakan model regresi linier. Namun, dapatkah saya menggunakan koordinat GPS ini secara langsung dalam model linier?

Lintang dan bujur tidak memiliki properti ordinal , seperti dengan usia seseorang. Sebagai contoh, dua poin (40.805996, -96.681473) dan (41.226682, -95.986587) tampaknya tidak memiliki urutan yang berarti. Mereka hanya poin di ruang angkasa. Saya berpikir untuk menggantinya dengan kode pos AS yang kategoris dan kemudian melakukan pengkodean satu-panas , tetapi itu akan menghasilkan banyak variabel.

stackoverflowuser2010
sumber
1
Apakah Anda harus menggunakannya secara langsung ? Pernahkah Anda mendengar tentang alat zonasi, seperti algoritma AZP oleh S. Openshaw? Anda bahkan dapat secara manual membatasi wilayah dalam peta untuk memisahkan wilayah / zona, jika wilayah tersebut relatif konsisten.
Mephy
@Mephy: Itu berarti saya akan mengkonversi lat / long ke zona, kan? Tetapi kemudian saya akan memiliki ratusan atau ribuan zona kategorikal, seperti halnya dengan kode pos. Saya harus menyandiaksarakan semuanya.
stackoverflowuser2010
Tergantung pada bagaimana Anda memotong zona, tentu saja. Jika Anda memilih "selatan garis Khatulistiwa / utara garis Khatulistiwa", maka itu hanya dua. Banyak algoritma zonasi memiliki beberapa parameter hiper untuk menentukan jumlah seperti jumlah zona atau ukuran zona minimum.
Mephy
Saya memiliki masalah yang sama. Saya ingin memprediksi posisi orang. Saya telah melakukan geohash pada semua fitur geolokasi dalam data pelatihan. Setelah itu, LabelDecoder digunakan untuk mengubah fitur lokasi kategoris. Akhirnya, hasilnya mengerikan. Apakah ada ide bagus untuk berurusan dengan prediksi spasial?
berisfu

Jawaban:

5

Anda tidak dapat menggunakannya secara langsung, karena tidak mungkin ada hubungan linear yang benar kecuali Anda mencari untuk memprediksi "seberapa jauh timur atau utara" seseorang. Seperti yang disebutkan dalam komentar, Anda perlu mengubahnya menjadi zona. Jika Anda ingin membuatnya tetap sederhana, Anda bisa menggunakan algoritme pengelompokan kNN dengan jumlah cluster potensial yang rendah dan kemudian menetapkan setiap instance fitur baru dengan ID cluster, dan kemudian meng-encode satu-hot itu.

Anda mungkin juga ingin membaca tentang bagaimana orang menginterpolasi koordinat untuk memprediksi nilai di seluruh peta. Contoh pertama adalah dengan stasiun suhu, tetapi Anda juga bisa membayangkan itu menjadi "zona panas" untuk kejahatan.

( DOCS )

CalZ
sumber
2

Anda dapat melakukan apa pun yang diinginkan hati Anda, tetapi kecuali jika model Anda memprediksi perbedaan suhu atau waktu, saya tidak dapat menemukan variabel target lain yang hanya bergantung pada koordinat.

Apa yang mungkin ingin Anda lakukan, adalah menggunakan sumber data eksternal dan memperkaya data Anda dengan Negara / Kode pos / iklim / fitur geografis lainnya yang akan membantu model Anda bekerja.

GregA
sumber
0

Koordinat GPS dapat langsung dikonversi ke geohash . Geohash membagi Bumi menjadi "ember" dengan ukuran berbeda berdasarkan jumlah digit (kode Geohash pendek membuat area besar dan kode lebih panjang untuk area lebih kecil).

Geohash adalah nomor tunggal yang dapat digunakan sebagai fitur dalam model.

Geohash hanya berlaku untuk seluruh dunia, kode pos tidak.

Brian Spiering
sumber
Output dari geohasher adalah string, bukan angka tunggal, bukan? Dan jika geohash adalah sebuah string, maka saya harus meng-encode satu-panas, yang akan menghasilkan banyak variabel, seperti halnya dengan kode pos yang dikodekan satu-panas.
stackoverflowuser2010
Geohash adalah nomor tunggal, dikodekan dalam basis 32. Tidak ada alasan untuk menyandikan 1-panas. Pilih tingkat presisi dan gunakan jumlah digit yang relevan.
Brian Spiering
Saya hanya melihat representasi string geohash. Namun, bahkan jika geohash direpresentasikan sebagai int panjang, apakah ada hubungan linier di antara mereka untuk digunakan dalam model linier? Itulah tepatnya pertanyaan asli saya.
stackoverflowuser2010
Hubungan antara geohash sedikit rumit - en.wikipedia.org/wiki/Geohash#Design
Brian Spiering
1
Ada banyak cara rekayasa fitur di luar pengkodean linear dan satu panas. Misalnya, trik kernel atau transformasi Helmert.
Brian Spiering