Soma ou média de gradientes no (mini) gradiente de lote decente?


15

Quando implementei o mini gradiente de lote decente, apenas calculei a média dos gradientes de todos os exemplos no lote de treinamento. No entanto, notei que agora a taxa de aprendizado ideal é muito maior do que a do gradiente on-line decente. Minha intuição é que isso ocorre porque o gradiente médio é menos barulhento e, portanto, poderia ser seguido mais rapidamente. Portanto, talvez também faça sentido apenas resumir os gradientes de um lote. Os valores podem ser positivos e negativos de qualquer maneira.

Eu sei que é apenas um fator constante que pode ser equilibrado usando a taxa de aprendizado. Mas me pergunto qual é a definição que os cientistas concordaram para que eu possa reproduzir resultados de documentos de redes neurais.

Normalmente, dividimos os gradientes somados de um lote pelo tamanho do lote?

Respostas:


21

Média.

Exemplos: Notas sobre o curso de aprendizado de máquina de Andrew Ng sobre o Coursera compilado por Alex Holehouse.

Somando os gradientes devido a amostras individuais, você obtém um gradiente muito mais suave. Quanto maior o lote, mais suave será o gradiente resultante usado na atualização do peso.

Dividir a soma pelo tamanho do lote e calcular o gradiente médio tem o efeito de:

  1. A magnitude do peso não cresce fora de proporção. A adição de regularização L2 à atualização de peso penaliza grandes valores de peso. Isso geralmente leva a um melhor desempenho de generalização. Tomando a média, especialmente se os gradientes apontarem na mesma direção, evite que os pesos fiquem muito grandes.
  2. A magnitude do gradiente é independente do tamanho do lote. Isso permite a comparação de pesos de outras experiências usando diferentes tamanhos de lote.
  3. O combate ao efeito do tamanho do lote com a taxa de aprendizado pode ser numericamente equivalente, mas você acaba com uma taxa de aprendizado específica da implementação. Isso dificulta a comunicação dos resultados e da configuração experimental se as pessoas não puderem se relacionar com a escala de parâmetros que você está usando e elas terão problemas para reproduzir sua experiência.

A média permite comparabilidade mais clara e mantém as magnitudes de gradiente independentes do tamanho do lote. A escolha de um tamanho de lote às vezes é restringida pelos recursos computacionais que você possui e deseja mitigar o efeito disso ao avaliar seu modelo.


O link está morto
cdeterman

1
link atualizado, não é mais possível vincular aos slides originais, então optou por notas bem compiladas de Alex Holehouse .
ypx 06/07

Este tutorial parece ser mais um somatório do que uma média .. deeplearning.net/tutorial/gettingstarted.html#regularization
AD
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.