A combinação de ReLU, a variante 1 com vazamento hiperparâmetro e a variante com parametrização dinâmica durante o aprendizado confunde duas coisas distintas:
- A comparação entre Relu com a variante gotejante está intimamente relacionada com o facto que há uma necessidade, no caso ML particular, à mão, a saturação de evitar - A saturação é ti perda de sinal para um ou outro gradiente nulo 2 ou o domínio de ruído caótico resultantes de digital arredondamento 3 .
- A comparação entre ativação dinâmica de treinamento (denominada paramétrica na literatura) e ativação estática de treinamento deve basear-se em se as características não lineares ou não suaves da ativação têm algum valor relacionado à taxa de convergência 4 .
A razão pela qual a ReLU nunca é paramétrica é que fazê-lo seria redundante. No domínio negativo, é o zero constante. No domínio não negativo, sua derivada é constante. Como o vetor de entrada de ativação já está atenuado com um produto de matriz vetorial (onde a matriz, o cubo ou o hipercubo contém os parâmetros de atenuação), não há propósito útil adicionar um parâmetro para variar a derivada constante para o domínio não negativo .
Quando há curvatura na ativação, não é mais verdade que todos os coeficientes de ativação são redundantes como parâmetros. Seus valores podem alterar consideravelmente o processo de treinamento e, portanto, a velocidade e a confiabilidade da convergência.
Para redes substancialmente profundas, a redundância ressurge, e há evidências disso, tanto na teoria quanto na prática na literatura.
- Em termos algébricos, a disparidade entre ReLU e ativações parametricamente dinâmicas derivadas dele se aproxima de zero, à medida que a profundidade (em número de camadas) se aproxima do infinito.
- Em termos descritivos, o ReLU pode aproximar com precisão as funções com a curvatura 5 se for fornecido um número suficiente de camadas para fazê-lo.
É por isso que a variedade ELU, que é vantajosa para evitar os problemas de saturação mencionados acima para redes mais rasas, não é usada para redes mais profundas.
Portanto, é preciso decidir duas coisas.
- Se a ativação paramétrica é útil, muitas vezes se baseia na experimentação com várias amostras de uma população estatística. Mas não há necessidade de experimentar se a profundidade da camada é alta.
- O valor da variante com vazamento tem muito a ver com os intervalos numéricos encontrados durante a propagação de retorno. Se o gradiente se tornar extremamente pequeno durante a propagação de retorno em qualquer ponto do treinamento, uma porção constante da curva de ativação pode ser problemática. Em uma situação dessas, uma das funções suaves ou a RelU com vazamento com suas duas pistas diferentes de zero podem fornecer a solução adequada.
Em resumo, a escolha nunca é uma opção de conveniência.
Notas de rodapé
[1] Hiper-parâmetros são parâmetros que afetam a sinalização através da camada que não fazem parte da atenuação de entradas para essa camada. Os pesos de atenuação são parâmetros. Qualquer outra parametrização está no conjunto de hiperparâmetros. Isso pode incluir taxa de aprendizado, amortecimento de altas frequências na propagação reversa e uma grande variedade de outros controles de aprendizado definidos para toda a camada, se não toda a rede.
[2] Se o gradiente é zero, não pode haver nenhum ajuste inteligente dos parâmetros porque a direção do ajuste é desconhecida e sua magnitude deve ser zero. O aprendizado para.
[3] Se o ruído caótico, que pode surgir à medida que a CPU arredonda valores extremamente pequenos para sua representação digital mais próxima, domina o sinal de correção que se destina a propagar de volta para as camadas, a correção se torna um absurdo e o aprendizado para.
[4] Taxa de convergência é uma medida da velocidade (relativa a microssegundos ou relativa ao índice de iteração do algoritmo) na qual o resultado do aprendizado (comportamento do sistema) se aproxima do que é considerado bom o suficiente. Geralmente, essa proximidade é especificada com alguns critérios formais de aceitação para a convergência (aprendizado).
[5] Funções com curvatura são aquelas que não são visualizadas como retas ou planas. Uma parábola tem curvatura. Uma linha reta não. A superfície de um ovo tem curvatura. Um plano plano perfeito não. Matematicamente, se algum dos elementos do Hessian da função for diferente de zero, a função terá curvatura.