A melhor abordagem é coletar o máximo de dados possível. Em seguida, inicie o projeto e faça um modelo de dados.
Agora você pode avaliar seu modelo para ver se ele possui alta polarização ou alta variação.
Alta variação : nessa situação, você verá que o erro de validação cruzada é maior que o erro de treinamento após a convergência. Existe uma lacuna significativa se você plotar o mesmo em relação ao tamanho dos dados de treinamento.
Viés alto : nessa situação, o erro de validação cruzada é um pouco maior que o erro de treinamento, que é alto quando representado graficamente em relação ao tamanho dos dados de treinamento. e erros de plotagem.
Se você vir seu modelo com alta variação (super ajuste), adicionar mais dados geralmente ajudará em contraste com o modelo de alto viés (baixo ajuste), onde a adição de novos dados de treinamento não ajuda.
Também por classe, você deve tentar obter o mesmo número de imagens, caso contrário, os conjuntos de dados podem ficar distorcidos (mais de um tipo).
Sugiro também que, se você estiver usando o TensorFlow , leia mais sobre o INCEPTION Image Classifier do GOOGLE . Ele já é um classificador treinado no banco de dados de imagens do Google e você pode usá-lo para suas imagens, assim os requisitos para o número de imagens diminuem drasticamente.