Aqui está uma pergunta detalhada relacionada à análise / geocodificação de endereços, que eu acho que deveria ser interessante para muitos usuários.
Então, basicamente, estou curioso para saber se alguém teve alguma experiência na instalação, construção ou extensão de uma ferramenta de geocodificação de código aberto e / ou correção de endereço.
Estou ciente do geocoder: iniciativas dos EUA 2.0 que, penso, são mantidas pelos geocommons, mas não tenho certeza se existem alternativas melhores, outras ferramentas de código aberto, se o sistema pode ser efetivamente estendido ou se há desenvolvimentos dos quais talvez eu não esteja ciente.
Meus objetivos são os seguintes:
- Preciso de uma ferramenta altamente precisa, capaz de analisar e / ou padronizar automaticamente os dados de localização inseridos pelos usuários em um único campo de entrada, tudo em tempo real e com o maior volume possível.
- Os dados de entrada seriam um ou mais dos seguintes componentes de endereço: CEP, município, cidade, rua, endereço e estado.
- Os dados de entrada também precisam ser capazes de pesquisar em nosso banco de dados de nomes geográficos personalizados. Por exemplo, ele pode inserir o nome de um bairro ou um nome de local não USPS que, naturalmente, não são variáveis de endereço padrão.
Tendo em vista esses objetivos, estou ciente do fato de que, quando um único campo de formulário é conduzido para realizar essa pesquisa, cada usuário insere seus dados em diferentes formatos, enquanto o outro fator geralmente cai em erros de ortografia.
Além de utilizar o banco de dados do censo como o núcleo dos endereços / intervalos válidos (tudo que eu acredito que o Geocoder: EUA faz, acredito que algum tipo de capacidade de definir "aliases" conhecidos seria ideal para erros de ortografia conhecidos de nomes de ruas. O mesmo vale para coisas como um usuário digitando Ave em comparação com Ave. em comparação com Avenue. Não pense que esses recursos alternativos sejam totalmente possíveis com a ferramenta Geocoder: US.
Embora os elementos acima possam realmente resolver a maioria dos problemas, acho que precisa existir algum tipo de correspondência nebulosa eficaz quando a entrada não puder ser correspondida com% de idade suficientemente alta.
Se os dados de entrada puderem ser analisados de maneira eficaz em elementos individuais com base em algumas regras assumidas e, em seguida, utilizando um tipo de componente "score score" para corresponder a distorção, qualquer elemento não correspondido terá que se basear nos elementos que já foram "correspondidos" com um valor alto. grau.
Por exemplo: suponho que, para que a geocodificação seja a mais eficaz possível, precisamos extrair elementos de dados individuais do campo de entrada primeiro, na tentativa de restringir a "área" para a qual o usuário está tentando encontrar resultados. Na minha opinião, isso significa que um número de 5 dígitos pode ser considerado um CEP, se houver outro elemento, como um nome de cidade, que corresponda ao CEP, na suposição de que temos a "área" correta ... Em seguida, usaremos o restante dados para tentar encontrar uma correspondência completa, parcial ou difusa, pontuar e listar os possíveis resultados.
De qualquer forma - eu apreciaria muito se alguém pudesse fornecer alguns conselhos aqui, juntamente com quaisquer conselhos, estatísticas de desempenho ou desenvolvimentos futuros que eles sabem que podem ajustar minha direção (como o uso do postgis 2.0 como um meio para melhorar as capacidades de correspondência)