Atualmente, estou trabalhando na implementação da descida estocástica de gradiente SGD
, para redes neurais usando propagação traseira, e enquanto eu entendo seu objetivo, tenho algumas perguntas sobre como escolher valores para a taxa de aprendizado.
- A taxa de aprendizado está relacionada à forma do gradiente de erro, conforme determina a taxa de descida?
- Em caso afirmativo, como você usa essas informações para informar sua decisão sobre um valor?
- Se não é o tipo de valores que devo escolher, e como devo escolher?
- Parece que você deseja valores pequenos para evitar ultrapassagens, mas como você escolhe um deles para não ficar preso aos mínimos locais ou demorar muito para descer?
- Faz sentido ter uma taxa de aprendizado constante ou devo usar alguma métrica para alterar seu valor à medida que me aproximo do mínimo no gradiente?
Em resumo: como escolho a taxa de aprendizado para o SGD?