Em Treinamento em lotes grandes para aprendizado profundo: diferença de generalização e Sharp Minima, há algumas declarações interessantes:
Observou-se na prática que, ao usar um lote maior, há uma degradação na qualidade do modelo, medida pela sua capacidade de generalizar [...]
os métodos de lotes grandes tendem a convergir para minimizadores nítidos das funções de treinamento e teste - e como é sabido, os mínimos nítidos levam a uma generalização mais fraca. n. Por outro lado, os métodos de pequenos lotes convergem consistentemente para minimizadores planos, e nossos experimentos sustentam uma visão comum de que isso se deve ao ruído inerente na estimativa do gradiente.
Da minha tese de mestrado : Daí a escolha do tamanho do minilote influenciar:
- Tempo de treinamento até a convergência : parece haver um ponto ideal. Se o tamanho do lote for muito pequeno (por exemplo, 8), esse tempo aumenta. Se o tamanho do lote for grande, também será maior que o mínimo.
- Tempo de treinamento por época : Maior calcula mais rápido (é eficiente)
- Qualidade do modelo resultante : quanto menor, melhor devido à melhor generalização (?)
É importante observar as interações de hiperparâmetros: o tamanho do lote pode interagir com outros hiperparâmetros, principalmente a taxa de aprendizado. Em algumas experiências, essa interação pode dificultar o isolamento do efeito do tamanho do lote sozinho na qualidade do modelo. Outra interação forte é com paradas precoces para regularização.
Veja também