Bons recursos em algoritmos de geocodificação


19

Você conhece algum bom recurso em algoritmos de geocodificação?

Estou particularmente interessado em analisar consultas de endereços, incluindo partes correspondentes e ponderadas da consulta, lidar com erros ortográficos e variações, bem como em detalhes sobre o armazenamento físico de dados (por exemplo, esquemas para consultas diretas ao banco de dados relacional, abordagens à indexação de dados etc.) .

Estudei alguns documentos sobre geocodificação do ArcGIS 10, mas eles tocam um pouco nos detalhes reais da implementação. A documentação detalhada de outras implementações de produção de alta qualidade também pode ser útil. Quanto mais técnico, melhor. Trabalhos de algoritmo teórico também são ótimos.

Obrigado.

Respostas:


14

Do texto às coordenadas geográficas: o estado atual da geocodificação

Daniel W. Goldberg, John P. Wilson e Craig A. Knoblock Resumo: Este artigo apresenta uma pesquisa sobre o estado da arte nas práticas de geocodificação por meio de uma revisão histórica interdisciplinar da literatura existente. Exploramos o conceito em evolução de geocodificação e os componentes fundamentais do processo. As fontes de erro e incerteza frequentemente encontradas são discutidas, bem como as medidas existentes usadas para quantificá-las. É apresentado um exame das armadilhas comuns e dos desafios persistentes no processo de geocodificação, e os métodos tradicionais para superá-las são descritos.

10.1.1.119.714.pdf

PDF (página 34 em diante) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.119.714&rep=rep1&type=pdf


Acredito que você tenha o link errado, citeseerx.ist.psu.edu/viewdoc/… #
Andy W

@thanks 10.1.1.119.714.pdf é o post atualizado correto - uma convenção de nomenclatura diferente seria melhor.
Mapperz

6

O artigo que o Mapperz vinculou é muito bom e possui muitas citações que provavelmente serão do seu interesse, mas não acho que eles façam um bom trabalho ao descrever a correspondência de cadeias e sua importância para o processo de geocodificação. Eles mencionaram brevemente o Soundex , mas o Soundex não é a única opção e nem a melhor opção para endereços IMO. Eles listaram algumas citações pertinentes ao tópico, para que esses trabalhos sejam do seu interesse.

Esse tópico no site de troca de estatísticas fala sobre a correspondência difusa de dois conjuntos de cadeias de caracteres, e todas as mesmas técnicas se aplicam ao combinar endereços. Particularmente, acho que o uso de distâncias de edição faz mais sentido do que o Soundex, especialmente com detalhes de endereço que não possuem analógico Soundex. Calcular a distância de Levenshtein entre duas strings não é tão complicado, e há muitos exemplos flutuando pela Internet ( aqui está um em Python).

Passei a última hora tentando descobrir como a ESRI implementa sua sensibilidade ortográfica e suas diferentes pontuações de candidatos e de correspondência. Não encontrei nada além de descrições simples (as melhores que encontrei neste PDF e na seção de ajuda on-line da 9.3 ). Portanto, se alguém puder me indicar uma documentação mais detalhada, eu ficaria agradecido, assim como o OP.




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.