No SGD, uma época seria a apresentação completa dos dados de treinamento e haveria N atualizações de peso por época (se houver N exemplos de dados no conjunto de treinamento).
Se agora fizermos mini-lotes, digamos em lotes de 20. Agora, uma época consiste em atualizações de peso N / 20 ou uma época é 'prolongada' em 20 para que contenha o mesmo número de atualizações de peso?
Eu pergunto isso, pois em alguns artigos o aprendizado parece ser rápido demais para o número de épocas declaradas.