ReLU, ou seja, Unidade Linear Retificada e tanh, ambos são funções de ativação não linear aplicadas à camada neural. Ambos têm sua própria importância. É só depende do problema na mão que queremos resolver e o resultado que queremos. Às vezes, as pessoas preferem usar a ReLU em vez de tanh porque a ReLU envolve menos computação .
Quando comecei a estudar Deep Learning, tive a pergunta: por que não usamos apenas a função de ativação linear em vez de não linear ? A resposta é que a saída será apenas uma combinação linear de entrada e a camada oculta não terá efeito e, portanto, a camada oculta não poderá aprender recursos importantes.
Por exemplo, se queremos que a saída esteja dentro de (-1,1), precisamos de tanh . Se precisarmos de saída entre (0,1), use a função sigmóide . No caso de ReLU, ele fornecerá no máximo {0, x} . Existem muitas outras funções de ativação, como o ReLU com vazamento.

Agora, para escolher a função de ativação apropriada para o nosso objetivo de obter melhores resultados, é apenas uma questão de experimento e prática que é conhecida como ajuste no mundo da ciência de dados.
No seu caso, pode ser necessário ajustar seu parâmetro, conhecido como ajuste de parâmetros, como número de neurônios em camadas ocultas, número de camadas etc.
A camada ReLU funciona bem para uma rede superficial?
Sim, é claro que a camada ReLU funciona bem para uma rede superficial.