Sumber daya yang baik pada algoritma geocoding

19

Apakah Anda tahu ada sumber daya yang baik pada algoritma geocoding?

Saya sangat tertarik pada penguraian kueri alamat, termasuk pencocokan dan pembobotan bagian kueri, berurusan dengan kesalahan ejaan dan variasi, serta detail tentang penyimpanan data fisik (mis. Skema untuk kueri basis data relasional langsung, pendekatan pengindeksan data dll.) .

Saya telah mempelajari beberapa dokumen tentang geocoding ArcGIS 10, tetapi mereka menyentuh sedikit detail implementasi sebenarnya. Dokumentasi terperinci dari implementasi produksi berkualitas tinggi lainnya juga dapat membantu. Semakin teknis semakin baik. Makalah algoritma teoretis juga bagus.

Terima kasih.

Petr Krebs
sumber

Jawaban:

14

Dari Teks ke Koordinat Geografis: Keadaan Geocoding Saat Ini

Daniel W. Goldberg, John P. Wilson, dan Craig A. Knoblock Abstrak: Artikel ini menyajikan survei tentang keadaan seni dalam praktik geocoding melalui tinjauan sejarah lintas-disiplin literatur yang ada. Kami mengeksplorasi konsep geocoding yang berkembang dan komponen mendasar dari proses. Sumber kesalahan dan ketidakpastian yang sering ditemui dibahas serta langkah-langkah yang ada digunakan untuk mengukurnya. Pemeriksaan tentang perangkap umum dan tantangan yang terus-menerus dalam proses geocoding disajikan, dan metode tradisional untuk mengatasinya dijelaskan.

10.1.1.119.714.pdf

PDF (halaman 34 dan seterusnya) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.714&rep=rep1&type=pdf

Mapperz
sumber
Saya yakin Anda memiliki tautan yang salah, citeseerx.ist.psu.edu/viewdoc/…
Andy W
@ terima kasih 10.1.1.119.714.pdf adalah pos yang benar diperbarui - konvensi penamaan yang berbeda akan lebih baik.
Mapperz
6

Makalah yang dikaitkan dengan Mapperz sangat baik dan memiliki banyak kutipan yang mungkin menarik, tetapi saya tidak berpikir mereka melakukan pekerjaan yang sangat baik untuk menggambarkan pencocokan string dan pentingnya untuk proses geocoding. Mereka menyebutkan secara singkat Soundex , tetapi Soundex bukan satu-satunya pilihan dan bahkan bukan pilihan terbaik untuk alamat IMO. Mereka memang membuat daftar beberapa kutipan yang berkaitan dengan topik, sehingga makalah-makalah itu akan menarik bagi Anda.

Thread ini di situs pertukaran Statistik berbicara tentang fuzzy yang cocok dengan dua set string, dan semua teknik yang sama berlaku saat mencocokkan alamat. Khususnya saya pikir menggunakan jarak edit lebih masuk akal daripada Soundex, terutama dengan detail alamat yang tidak memiliki analog Soundex. Menghitung jarak Levenshtein antara dua string tidak terlalu rumit, dan mereka banyak contoh melayang di internet (di sini adalah satu dengan Python).

Saya baru saja menghabiskan satu jam terakhir mencoba untuk menemukan bagaimana ESRI mengimplementasikan sensitivitas ejaan mereka dan skor kandidat dan pertandingan yang berbeda. Saya tidak menemukan apa pun kecuali deskripsi sederhana (yang terbaik dari yang saya temukan di bagian bantuan online PDF dan 9.3 ini ). Jadi kalau ada yang bisa mengarahkan saya ke beberapa dokumentasi yang lebih rinci saya akan menghargai serta OP.

Andy W
sumber
3

University of South Carolina memiliki layanan pemrosesan alamat dan geocoding di mana mereka telah menerbitkan beberapa rincian teknis. Mereka memiliki banyak referensi bagus di situs mereka.

Sean
sumber