Berikut adalah sedikit pertanyaan terperinci terkait dengan alamat parsing / geocoding yang menurut saya harus menarik bagi banyak pengguna.
Jadi, pada dasarnya saya ingin tahu apakah ada yang punya pengalaman menginstal, membangun atau memperluas geocoding opensource dan / atau alat koreksi alamat.
Saya mengetahui geocoder: Inisiatif US 2.0 yang menurut saya dikelola oleh geocommons tetapi saya tidak yakin apakah ada alternatif yang lebih baik, alat sumber terbuka lainnya, apakah sistem mereka dapat diperluas secara efektif atau jika ada perkembangan yang mungkin tidak saya sadari.
Tujuan saya adalah sebagai berikut:
- Saya memerlukan alat yang sangat akurat yang mampu secara otomatis mem-parsing dan / atau menstandarisasi data lokasi yang dimasukkan oleh pengguna dari bidang input tunggal semuanya dalam waktu nyata dan dengan volume setinggi mungkin.
- Input data akan menjadi satu atau lebih komponen alamat berikut: kode pos, county, city, street, address, state.
- Input data juga harus dapat dicari dari database geonames khusus kami. Misalnya ia dapat memasukkan nama lingkungan atau bukan nama lokasi USPS yang secara alami bukan variabel alamat standar.
Mengingat tujuan-tujuan ini, saya menyadari fakta bahwa ketika diberikan bidang formulir tunggal untuk melakukan pencarian seperti itu, setiap pengguna akan memasukkan datanya dalam format yang berbeda, sementara faktor lain umumnya salah eja.
Selain menggunakan basis data sensus sebagai inti untuk alamat / rentang yang valid (semua yang saya yakini Geocoder: AS, saya percaya beberapa jenis kemampuan untuk mendefinisikan "alias" yang dikenal akan ideal untuk kesalahan ejaan nama jalan yang dikenal. Hal yang sama berlaku untuk hal-hal seperti pengguna memasuki Ave dibandingkan dengan Ave dibandingkan dengan Avenue. Jangan berpikir kemampuan alias seperti itu sepenuhnya mungkin dengan alat Geocoder: US.
Sementara elemen-elemen di atas memang bisa menyelesaikan sebagian besar masalah, saya pikir beberapa jenis pencocokan fuzzy yang efektif perlu ada ketika input tidak dapat dicocokkan dengan% usia yang cukup tinggi.
Jika input data dapat secara efektif dipecah menjadi elemen individu berdasarkan beberapa aturan yang diasumsikan dan kemudian menggunakan jenis komponen "match score" untuk fuzzy cocok dengan elemen yang tidak cocok harus didasarkan pada elemen-elemen yang sudah "cocok" dengan yang tinggi. gelar.
Sebagai contoh: Saya akan menganggap geocoding menjadi seefektif mungkin kita perlu mengekstraksi elemen data individual dari bidang input terlebih dahulu dalam upaya untuk mempersempit "area" yang coba dicari oleh pengguna. Dalam pandangan saya ini berarti bahwa angka 5 digit dapat dianggap sebagai kode pos, jika ada elemen lain seperti nama kota yang cocok dengan kode pos dengan asumsi bahwa kita memiliki "area" yang benar ... Selanjutnya kita menggunakan sisanya data untuk mencoba menemukan kecocokan penuh, parsial atau kabur, skor dan daftar hasil yang mungkin.
Dalam hal apa pun - saya akan sangat menghargai jika ada yang bisa memberikan beberapa saran di sini bersama dengan saran, statistik kinerja atau perkembangan mendatang yang mereka sadari yang mungkin menyesuaikan arah saya (seperti penggunaan postgis 2.0 sebagai sarana untuk meningkatkan kemampuan mencocokkan)
sumber