Redes neurais: uma época no SGD é a mesma do mini lote?

8

No SGD, uma época seria a apresentação completa dos dados de treinamento e haveria N atualizações de peso por época (se houver N exemplos de dados no conjunto de treinamento).

Se agora fizermos mini-lotes, digamos em lotes de 20. Agora, uma época consiste em atualizações de peso N / 20 ou uma época é 'prolongada' em 20 para que contenha o mesmo número de atualizações de peso?

Eu pergunto isso, pois em alguns artigos o aprendizado parece ser rápido demais para o número de épocas declaradas.

machine-learning neural-networks

— James
fonte

Possível duplicado de Tradeoff número vs. tamanho do lote de iterações para treinar uma rede neural

— Franck Dernoncourt

A questão está mais na convenção, ou seja, se alguém declarar ter treinado uma rede por 10 épocas usando mini-lotes de 20, isso significa que houve 10 * N atualizações de peso ou 10 * N / 20?

— James

Sinto muito pela confusão, talvez stats.stackexchange.com/a/164875/12359 responda sua pergunta?

— Franck Dernoncourt 16/08/16

6

Na terminologia da rede neural:

uma época = uma passagem para frente e uma passagem para trás de todos os exemplos de treinamento
tamanho do lote = o número de exemplos de treinamento em uma passagem para frente / trás. Quanto maior o tamanho do lote, mais espaço de memória será necessário.
número de iterações = número de passagens, cada passagem usando o número de exemplos [tamanho do lote]. Para ser claro, uma passagem = uma passagem para frente + uma passagem para trás (não contamos a passagem para frente e para trás como duas passagens diferentes).

Exemplo: se você tiver 1000 exemplos de treinamento e seu tamanho de lote for 500, serão necessárias duas iterações para concluir uma época.

— Franck Dernoncourt
fonte

1

A resposta de Franck não está correta. É preciso coragem para dizer isso porque ele tem muito mais representantes do que eu e muitas pessoas já votaram a favor.

Época é uma palavra que significa uma única passagem por um conjunto de treinamento, nem todos os exemplos de treinamento.

Então sim. Se fizermos mini-lotes GD em vez de um lote GD, digamos em lotes de 20, uma época agora consiste em atualizações de peso N / 20. N é o número total de amostras.

Para ser detalhado, em uma descida de gradiente em lote, uma única passagem pelo treinamento permite executar apenas uma etapa de descida de gradiente. Com a descida em gradiente de minilote (tamanho do lote = 5.000), uma única passagem pelo conjunto de treinamento, que é uma época, permite executar 5.000 etapas de descida em gradiente.

— Aerin
fonte