Eu tenho uma compreensão decente de redes neurais, propagação traseira e regra de cadeia, no entanto, estou lutando para entender a diferenciação automática.
A seguir, consulte a diferenciação automática fora do contexto da propagação de retorno:
- Como a diferenciação automática calcula o gradiente a partir de uma matriz?
- Quais são os requisitos para calcular um gradiente? Uma função precisa ser especificada?
- Quais são alguns casos de uso para isso (além da propagação de retorno)?
- Por que é importante e quais são as alternativas?
Estou esquecendo de algo?
tf.gradient
método que eu deveria estar olhando?