Em trabalhos como esse , muitas vezes vejo curvas de treinamento com esse tipo de forma:
Nesse caso, o SGD foi utilizado com um fator de 0,9 e a taxa de aprendizado diminuiu de 10 a cada 30 épocas.
- Por que existe uma redução tão grande no erro quando a taxa de aprendizado é alterada?
- Por que o erro de validação começa a aumentar após a queda inicial, enquanto o erro de treinamento continua diminuindo?
- Os mesmos resultados podem ser obtidos aproximando a 2ª e a subsequente taxa de aprendizado? Ou seja, por que o atraso em fazer mais quedas?