Quais são as vantagens de ReLU vs Leaky ReLU e Parametric ReLU (se houver)?

Eu acho que a vantagem de usar Leaky ReLU em vez de ReLU é que, dessa maneira, não podemos ter gradiente de fuga. O ReLU paramétrico tem a mesma vantagem, com a única diferença de que a inclinação da saída para entradas negativas é um parâmetro que pode ser aprendido, enquanto que no Leaky ReLU é um hiperparâmetro.

No entanto, não consigo dizer se há casos em que é mais conveniente usar o ReLU em vez do Leaky ReLU ou do Parametric ReLU.

neural-networks activation-function relu

— gvgramazio
fonte

A combinação de ReLU, a variante ^{1 com} vazamento hiperparâmetro e a variante com parametrização dinâmica durante o aprendizado confunde duas coisas distintas:

A comparação entre Relu com a variante gotejante está intimamente relacionada com o facto que há uma necessidade, no caso ML particular, à mão, a saturação de evitar - A saturação é ti perda de sinal para um ou outro gradiente nulo ² ou o domínio de ruído caótico resultantes de digital arredondamento ³ .
A comparação entre ativação dinâmica de treinamento (denominada paramétrica na literatura) e ativação estática de treinamento deve basear-se em se as características não lineares ou não suaves da ativação têm algum valor relacionado à taxa de convergência ⁴ .

A razão pela qual a ReLU nunca é paramétrica é que fazê-lo seria redundante. No domínio negativo, é o zero constante. No domínio não negativo, sua derivada é constante. Como o vetor de entrada de ativação já está atenuado com um produto de matriz vetorial (onde a matriz, o cubo ou o hipercubo contém os parâmetros de atenuação), não há propósito útil adicionar um parâmetro para variar a derivada constante para o domínio não negativo .

Quando há curvatura na ativação, não é mais verdade que todos os coeficientes de ativação são redundantes como parâmetros. Seus valores podem alterar consideravelmente o processo de treinamento e, portanto, a velocidade e a confiabilidade da convergência.

Para redes substancialmente profundas, a redundância ressurge, e há evidências disso, tanto na teoria quanto na prática na literatura.

Em termos algébricos, a disparidade entre ReLU e ativações parametricamente dinâmicas derivadas dele se aproxima de zero, à medida que a profundidade (em número de camadas) se aproxima do infinito.
Em termos descritivos, o ReLU pode aproximar com precisão as funções com a curvatura ⁵ se for fornecido um número suficiente de camadas para fazê-lo.

É por isso que a variedade ELU, que é vantajosa para evitar os problemas de saturação mencionados acima para redes mais rasas, não é usada para redes mais profundas.

Portanto, é preciso decidir duas coisas.

Se a ativação paramétrica é útil, muitas vezes se baseia na experimentação com várias amostras de uma população estatística. Mas não há necessidade de experimentar se a profundidade da camada é alta.
O valor da variante com vazamento tem muito a ver com os intervalos numéricos encontrados durante a propagação de retorno. Se o gradiente se tornar extremamente pequeno durante a propagação de retorno em qualquer ponto do treinamento, uma porção constante da curva de ativação pode ser problemática. Em uma situação dessas, uma das funções suaves ou a RelU com vazamento com suas duas pistas diferentes de zero podem fornecer a solução adequada.

Em resumo, a escolha nunca é uma opção de conveniência.

Notas de rodapé

[1] Hiper-parâmetros são parâmetros que afetam a sinalização através da camada que não fazem parte da atenuação de entradas para essa camada. Os pesos de atenuação são parâmetros. Qualquer outra parametrização está no conjunto de hiperparâmetros. Isso pode incluir taxa de aprendizado, amortecimento de altas frequências na propagação reversa e uma grande variedade de outros controles de aprendizado definidos para toda a camada, se não toda a rede.

[2] Se o gradiente é zero, não pode haver nenhum ajuste inteligente dos parâmetros porque a direção do ajuste é desconhecida e sua magnitude deve ser zero. O aprendizado para.

[3] Se o ruído caótico, que pode surgir à medida que a CPU arredonda valores extremamente pequenos para sua representação digital mais próxima, domina o sinal de correção que se destina a propagar de volta para as camadas, a correção se torna um absurdo e o aprendizado para.

[4] Taxa de convergência é uma medida da velocidade (relativa a microssegundos ou relativa ao índice de iteração do algoritmo) na qual o resultado do aprendizado (comportamento do sistema) se aproxima do que é considerado bom o suficiente. Geralmente, essa proximidade é especificada com alguns critérios formais de aceitação para a convergência (aprendizado).

[5] Funções com curvatura são aquelas que não são visualizadas como retas ou planas. Uma parábola tem curvatura. Uma linha reta não. A superfície de um ovo tem curvatura. Um plano plano perfeito não. Matematicamente, se algum dos elementos do Hessian da função for diferente de zero, a função terá curvatura.

— FauChristian
fonte

O que você quer dizer com A escolha nunca é uma opção de conveniência ?

— gvgramazio

@gvgramazio, você escreveu "mais conveniente usar o ReLU" na sua pergunta. Eu estava indicando que a conveniência não é a base sobre a qual a escolha é feita. Talvez pareça muito duro? Eu não pretendia ser. As frases acima dessa frase em minha resposta foram destinadas a fornecer os critérios mais úteis nos quais você pode basear sua decisão ao escolher as funções de ativação.

— FauChristian

Não se preocupe em ser muito duro, não é um problema para mim. Eu acho que isso é mais um problema de linguagem (eu não sou um falante nativo de inglês).

— gvgramazio

O fato é que, pelo que entendi, você explica bem, caso em que devo preferir uma variante em relação às outras. O que ainda não entendo é quando devo preferir o clássico. por exemplo, a variante com vazamento pode fornecer uma solução adequada para o gradiente de fuga, mas se não houver nenhum inconveniente, eu sempre poderia escolher a variante com vazamento em relação à ReLU.

— gvgramazio

@FauChristian por favor você pode adicionar alguns termos e intuições mais coloquiais, não sou tão familiarizado com a linguagem matemática :)

— DuttaA