Normalização em lote e ReLUs são soluções para o problema do gradiente de fuga. Se estamos usando a normalização em lote, devemos usar sigmoides? Ou existem recursos de ReLUs que os fazem valer a pena mesmo ao usar batchnorm?
Suponho que a normalização feita no batchnorm enviará zero ativações negativas. Isso significa que o batchnorm resolve o problema "ReLU morto"?
Mas a natureza contínua do tanh e da logística permanece atraente. Se eu estiver usando batchnorm, o tanh funcionará melhor que o ReLU?
Tenho certeza de que a resposta depende . Então, o que funcionou na sua experiência e quais são os principais recursos do seu aplicativo?