Eu tenho testes de unidade menores que usam pequenos trechos de conjuntos de dados reais. Eu também gostaria de testar meu programa em relação a conjuntos de dados completos por várias razões. O único problema é que um único conjunto de dados real é de aproximadamente 5 GB. Não encontrei números concretos para o que os repositórios Git podem armazenar, mas isso parece demais.
A solução que minha equipe adotou é que o projeto tenha um arquivo que contém um caminho para um sistema de arquivos conectado à rede que contém nossos dados de teste. O arquivo é Git ignorado.
Eu sinto que esta é uma solução imperfeita por duas razões. Quando o NAS não está funcionando, é lento ou está inoperante, não podemos executar um teste completo. A segunda razão é que, quando alguém clona um repositório pela primeira vez, os testes de unidade falham, então eles precisam descobrir como montar coisas com um determinado nome e a sintaxe usada para criar o arquivo do caminho de teste.
Então, minha pergunta é dupla. Quantos dados há demais para armazenar no controle de revisão?
Qual é a melhor maneira de lidar com grandes quantidades de dados de teste?