Existe alguma função de ativação que possa tornar a normalização do lote obsoleta?

Enquanto aprendia a normalização de lotes, eu estava pensando por que não podemos resolver o "problema da escala de gradiente" usando uma função de ativação apropriada?

Como não podemos atrasar e dimensionar a função de ativação em vez de dimensionar todo o conjunto de dados e garantir que a variação seja preservada por meio dele?

machine-learning

— Totem
fonte

Eu acho que você está um pouco errado, você está falando sobre normalização de dados em vez de normalização em lote, o primeiro é uma etapa de pré-processamento.

— Mídia

Eu estava falando sobre normalizar em cada camada "automaticamente" ou normalizar no início e manter a forma dos dados através das camadas.

— Totem

O que você descreve soa muito como Unidades Lineares Exponenciais em Escala (SELUs), que são o núcleo das Redes Neurais Auto-Normalizantes , que foram apresentadas no NIPS 2017.

Um breve resumo daqui é o seguinte:

Se a média e a variação da entrada estiverem em determinado intervalo, a média e a variação da saída devem (1) também nesse intervalo e (2) convergir para um ponto fixo após aplicar iterativamente a função de ativação.

Você pode querer dar uma olhada nos comentários do post do reddit . Se você quiser entendê-las completamente, poderá prosseguir com o apêndice de 90 páginas da pré-impressão arxiv .

Eles chamaram muita atenção quando foram apresentados, mas acho que eles não cumpriram as expectativas, pois ninguém parece estar falando sobre eles ultimamente na internet .

— ncasas
fonte

Foi publicado seis meses após a edição do meu livro. A importância de acompanhar as novidades! Obrigado pelos detalhes. Existe uma razão pela qual "ninguém parece estar falando sobre eles"?

— Totem

Não sei se existem razões técnicas ou não, mas talvez as pessoas estejam ficando céticas devido às práticas de " descida dos estudantes de graduação " ultimamente, o que dificulta a adoção, a menos que resultados SOTA espetaculares e consistentes.

— N183 ncasas

Minha experiência com eluconfirma sua última afirmação: seu desempenho é muito parecido relu, não muito melhor ou pior, mas mais lento.

— Maxim

Perdi sua resposta @ncasas, obrigado.

— Totem