Sim, a derivada de segunda ordem da ReLU é 0. Tecnicamente, nem nem são definidos em , mas ignoramos isso - na prática, um exato é raro e não é especialmente significativo, portanto, isso não é um problema. O método de Newton não funciona na função de transferência ReLU porque não possui pontos estacionários. Porém, ele também não funciona significativamente na maioria das outras funções comuns de transferência - elas não podem ser minimizadas ou maximizadas para entradas finitas.dydxd2ydx2x=0x=0
Quando você combina várias funções ReLU com camadas de multiplicações de matrizes em uma estrutura como uma rede neural e deseja minimizar uma função objetiva, a imagem é mais complicada. Essa combinação tem pontos estacionários. Mesmo um único neurônio ReLU e um objetivo de erro quadrado médio terão um comportamento suficientemente diferente, de modo que a derivada de segunda ordem do peso único varia e não é garantida que seja 0.
Não linearidades quando várias camadas se combinam é o que cria uma superfície de otimização mais interessante. Isso também significa que é mais difícil calcular derivadas parciais de segunda ordem úteis (ou matriz de Hessian ), não se trata apenas de derivar derivadas de segunda ordem das funções de transferência.
O fato de que para a função de transferência fará com que alguns termos sejam zero na matriz (para o efeito de segunda ordem da mesma ativação do neurônio), mas a maioria dos termos no Hessian é da forma onde E é o objetivo e , são parâmetros diferentes da rede neural. Uma matriz Hessiana totalmente realizada terá termos em que é o número de parâmetros - com grandes redes neurais com mais de 1 milhão de parâmetros, mesmo com um processo de cálculo simples e muitos termos sendo 0 (por exemplo, 2 pesos na mesma camada) pode não ser possível calcular.d2ydx2=0∂2E∂xi∂xjxixjN2N
Existem técnicas para estimar os efeitos de derivadas de segunda ordem usadas em alguns otimizadores de redes neurais. O RMSProp pode ser visto como uma estimativa aproximada de efeitos de segunda ordem, por exemplo. Os otimizadores "livres de Hessian" calculam mais explicitamente o impacto dessa matriz.