Ok, acho que esse tipo de consulta / pesquisa informal sobre o tamanho dos conjuntos de dados que você está usando em seus mundos ESRI ...
Estou construindo e mantendo um conjunto de dados em todo o estado, onde tenho que processar até o nível da casa individual, não nível de pacote, mas vários endereços de correspondência por pacote para nossos sistemas. Em muitos lugares, estou usando endereços teóricos calculados a partir de redes de ruas ou dados USPS AMS / AIS. Portanto, minha lista de endereços é de aproximadamente 13,5 milhões de endereços e cresce mensalmente ou trimestralmente.
Há alguém por aí mantendo um sistema ativo de informações de endereço / pesquisa apropriadas que são grandes em um conjunto de dados contínuo?
Gostaria muito de colaborar ou falar mais sobre como outras pessoas estão lidando com um conjunto de dados tão grande. Estou vendo problemas em que o software ESRI parece estar explodindo quando tento executar tarefas como interseções ou junções espaciais. A ESRI diz que eles não veem esse tipo de problema, mas eu tenho esses problemas desde a versão 9.3.1, então não posso ser a primeira / única pessoa fazendo isso, pois posso recriá-lo em várias máquinas.
Minha plataforma agora é o ESRI ArcGIS 10 na área de trabalho, conversando com o ArcSDE 9.3.1-sp1 em um back-end SQL2008 usando o objeto espacial GEOMETRY. Então, eu não estou fazendo nada realmente exótico; mas ainda me parece que em algumas áreas talvez eu esteja empurrando o envelope.
[Mais distante]
O que eu estou interessado em saber é o que as outras pessoas estão fazendo para otimizar os processos para lidar com esses conjuntos de dados. Vou adicionar palavras-chave de um milhão de registros por mês daqui para frente e, embora a geocodificação etc. não seja um problema quando você começar a executar outros processos e vincular dados para análises adicionais, começará a lidar com junções complexas. Bem, você gera dados de Intersects / Overlays / Identities usando Only_FID e também obtém uma fina tabela intermediária; mas quando você começa a tentar dividir e conquistar a criação dessa tabela, começa a encontrar problemas em que precisa dividir os dados de origem em áreas de trabalho, mas depois repete o IDS que não pode ser recuperado; então você fica com blocos menores de dados que não podem ser facilmente inteiros novamente.
Pensando em opções que dividem os dados na escala Condado por Condado, usando visões espaciais para juntá-las, etc ... Apenas curioso para saber se outros usuários estão olhando para os mesmos tipos de problemas em uma escala tão grande, mas em pequenas pegadas.