Ao treinar redes neurais, um hiperparâmetro é do tamanho de um minibatch. As opções comuns são 32, 64 e 128 elementos por mini lote.
Existem regras / diretrizes para o tamanho de um mini lote? Alguma publicação que investiga o efeito no treinamento?
Ao treinar redes neurais, um hiperparâmetro é do tamanho de um minibatch. As opções comuns são 32, 64 e 128 elementos por mini lote.
Existem regras / diretrizes para o tamanho de um mini lote? Alguma publicação que investiga o efeito no treinamento?
Respostas:
Em Treinamento em lotes grandes para aprendizado profundo: diferença de generalização e Sharp Minima, há algumas declarações interessantes:
Observou-se na prática que, ao usar um lote maior, há uma degradação na qualidade do modelo, medida pela sua capacidade de generalizar [...]
os métodos de lotes grandes tendem a convergir para minimizadores nítidos das funções de treinamento e teste - e como é sabido, os mínimos nítidos levam a uma generalização mais fraca. n. Por outro lado, os métodos de pequenos lotes convergem consistentemente para minimizadores planos, e nossos experimentos sustentam uma visão comum de que isso se deve ao ruído inerente na estimativa do gradiente.
Da minha tese de mestrado : Daí a escolha do tamanho do minilote influenciar:
É importante observar as interações de hiperparâmetros: o tamanho do lote pode interagir com outros hiperparâmetros, principalmente a taxa de aprendizado. Em algumas experiências, essa interação pode dificultar o isolamento do efeito do tamanho do lote sozinho na qualidade do modelo. Outra interação forte é com paradas precoces para regularização.