É frequentemente mencionado que as unidades lineares retificadas (ReLU) substituíram as unidades softplus porque são lineares e mais rápidas de calcular.
O softplus ainda tem a vantagem de induzir esparsidade ou isso é restrito à ReLU?
A razão pela qual pergunto é que me pergunto sobre as consequências negativas da inclinação zero da ReLU. Essa propriedade não "prende" as unidades em zero, onde pode ser benéfico dar a elas a possibilidade de reativação?