Por que a ReLU com vazamento nem sempre é preferível à ReLU, dado o gradiente zero para x <0?

Parece-me que o ReLU com vazamento deve ter um desempenho muito melhor, pois o ReLU padrão não pode usar metade de seu espaço (x <0, onde o gradiente é zero). Mas isso não acontece e, na prática, a maioria das pessoas usa ReLU padrão.

neural-network gradient-descent

— Brans Ds
fonte

Sua pergunta me confunde, o que exatamente você quer saber? Você também pode cortar o cabeçalho e adicionar mais no conteúdo. O que você quer dizer com 'todos' estão usando? Você quer dizer empresas genéricas? Você menciona que a ReLU com vazamento deve ter um desempenho melhor no conteúdo da pergunta, mas se contradizer no cabeçalho.

— Hima Varsha

Uma razão pela qual as Unidades ReL foram introduzidas é contornar o problema de gradientes de fuga das unidades sigmoidais em -1 e 1.

Outra vantagem das unidades ReL é que elas saturam exatamente 0, permitindo representações esparsas, o que pode ser útil quando unidades ocultas são usadas como entrada para um classificador. O gradiente zero pode ser problemático nos casos em que a unidade nunca é ativada em um cenário baseado em gradiente quando a unidade não é ativada inicialmente.

Esse problema pode ser aliviado usando Unidades ReL com vazamento. Por outro lado, as unidades ReL com vazamento não têm a capacidade de criar uma representação esparsa com zero zero que pode ser útil em certos casos. Portanto, existe uma certa troca e, como em geral com a NN, depende dos casos de uso em que unidade tem um desempenho melhor. Na maioria dos casos, se as configurações iniciais puderem garantir que a Unidade ReL esteja ativada (por exemplo, definindo os desvios para pequenos valores positivos), seria de esperar que a ReL e as Unidades Rel com vazamentos tivessem um desempenho muito semelhante.

Além disso, a RelU com vazamento (se paramétrico) introduz outro parâmetro (a inclinação para ) que precisa ser aprendido durante o treinamento e, portanto, adiciona mais complexidade / tempo de treinamento. $x<0$

— oW_
fonte