Respostas:
Você está quase correto! A ReLU tem um problema com o gradiente desaparecendo, mas apenas de um lado, por isso chamamos de outra coisa: o 'problema da ReLU que está morrendo'. Veja esta resposta de estouro de pilha para obter mais informações: Qual é o problema "ReLU moribundo" nas redes neurais?
É uma pequena diferença semântica. Muitas funções (tanh e logística / sigmóide) têm derivadas muito próximas de zero quando você está fora da faixa de operação padrão. Essa é a questão do 'gradiente de fuga'. Quanto pior você fica, mais difícil é voltar à zona boa. O ReLU não piora quanto mais você estiver na direção positiva, portanto, não haverá problema de gradiente de fuga (nesse lado). Essa assimetria pode ser suficiente para justificar chamá-la de algo diferente, mas as idéias são bastante semelhantes.
Desaparecer significa que ele vai para 0, mas nunca será realmente 0. Ter gradientes de 0 facilita os cálculos, ter gradientes próximos de 0 significa que há alterações, apenas pequenas, o que significa aprendizado lento e problemas numéricos. 1 e 0 são dois dos números mais fáceis de calcular nesse tipo de problemas de otimização.