Eu sou um estudante de doutorado em Geofísica e trabalho com grandes quantidades de dados de imagem (centenas de GB, dezenas de milhares de arquivos). Eu sei svn
e git
razoavelmente bem e vem a valorizar a história do projeto, combinado com a capacidade de facilmente trabalhar juntos e ter proteção contra corrupção de disco. Também acho git
extremamente útil ter backups consistentes, mas sei que o git não pode lidar com grandes quantidades de dados binários com eficiência.
Nos meus estudos de mestrado, trabalhei em conjuntos de dados de tamanho semelhante (também imagens) e tive muitos problemas para acompanhar versões diferentes em diferentes servidores / dispositivos. Difundir 100 GB na rede realmente não é divertido e me custa muito tempo e esforço.
Sei que outros cientistas parecem ter problemas semelhantes, mas não consegui encontrar uma boa solução.
Eu quero usar as instalações de armazenamento do meu instituto, então preciso de algo que possa usar um servidor "burro". Também gostaria de ter um backup adicional em um disco rígido portátil, porque gostaria de evitar a transferência de centenas de GB pela rede sempre que possível. Portanto, preciso de uma ferramenta que possa lidar com mais de um local remoto.
Por fim, eu realmente preciso de algo que outro pesquisador possa usar, para que não precise ser super simples, mas que possa ser aprendido em algumas horas.
Avaliei várias soluções diferentes, mas nenhuma parece se encaixar na conta:
- svn é um tanto ineficiente e precisa de um servidor inteligente
- hg bigfile / largefile pode usar apenas um controle remoto
- O git bigfile / media também pode usar apenas um controle remoto, mas também não é muito eficiente
- sótão não parece ter um log, ou capacidades diferentes
- O bup parece realmente bom, mas precisa de um servidor "inteligente" para funcionar
Eu tentei git-annex
, o que faz tudo o que eu preciso fazer (e muito mais), mas é muito difícil de usar e não está bem documentado. Eu o uso há vários dias e não consigo entender o assunto, então duvido que qualquer outro colega se interesse.
Como os pesquisadores lidam com grandes conjuntos de dados e o que outros grupos de pesquisa estão usando?
Para ser claro, estou interessado principalmente em como outros pesquisadores lidam com essa situação, não apenas nesse conjunto de dados específico. Parece-me que quase todo mundo deveria ter esse problema, mas não conheço ninguém que o tenha resolvido. Devo apenas manter um backup dos dados originais e esquecer todas essas coisas de controle de versão? É isso que todo mundo está fazendo?