Pelo que entendi, a norma de lote normaliza todos os recursos de entrada de uma camada para uma distribuição normal de unidade, . A média e variância \ mu, \ sigma ^ 2 são estimadas medindo seus valores para o mini lote atual.μ , σ 2
Após a normalização, as entradas são dimensionadas e alteradas pelos valores escalares:
(Corrija-me se estiver errado aqui - é aqui que começo a ficar um pouco inseguro.)
e são valores escalares e existe um par de cada para cada camada normatizada em lote. Eles são aprendidos junto com os pesos usando backprop e SGD.
Minha pergunta é: esses parâmetros não são redundantes porque as entradas podem ser dimensionadas e alteradas de qualquer forma pelos pesos na própria camada. Em outras palavras, se
e
então
onde e .
Então, qual é o sentido de adicioná-los à rede já é capaz de aprender a escala e a mudança? Ou estou totalmente entendendo mal as coisas?