Utilizamos um sistema de arquivos organizado hierarquicamente por: - extensão geográfica (país ou continente) - provedor de dados, licenciante - domínio / conjunto de dados - data / versão
Depois disso, temos uma política para separar os dados de origem (no mesmo formato que estava em qualquer CD / DVD que obtivemos do provedor) de quaisquer conjuntos de dados derivados que produzimos em nossa empresa.
O sistema de arquivos facilita muito a ingestão de dados do cliente e também permite alguma flexibilidade em termos de armazenamento físico - mantemos nossos arquivos em discos maiores e mais lentos e temos servidores de arquivos especiais (vinculados de forma transparente à hierarquia) para os conjuntos de dados usados com mais frequência.
Para facilitar o gerenciamento dentro dos projetos, usamos links simbólicos. Mantemos nossos vetores em um banco de dados (Oracle) e estabelecemos como regra ter pelo menos uma instância de banco de dados por cliente (e vários usuários / esquemas para os projetos). No entanto, não mantivemos muitos rasters em um banco de dados, pois eles tendem a ocupar muito espaço, mesmo fora de um. Além disso, gostamos de manter nossas instâncias de banco de dados o mais leve possível.
E sim, temos alguém encarregado de 'policiar' a coisa toda, para que não fique muito confuso.
O maior problema que temos com essa configuração atualmente é a falta de uma interface agradável para o usuário, o que nos ajudaria a ter uma visão geral melhor de tudo, e planejamos incluir um armazenamento de metadados em cima disso. Ainda estamos considerando nossas opções aqui.
Estamos usando o controle de versão para o nosso código e o usamos para documentos, mas acontece que o controle de versão não é realmente feito para grandes conjuntos de dados, especialmente se forem na maioria arquivos binários, por isso não recomendo que , exceto se você estiver lidando com o GML ou algo semelhante ao texto (os problemas incluem enormes custos indiretos no uso do disco do lado do servidor, bem como os clientes travando ao verificar grandes repositórios).