Perguntas com a marcação «batch-normalization»

2
Como e por que a Normalização de lote usa médias móveis para rastrear a precisão do modelo enquanto ele treina?
Eu estava lendo o documento de normalização em lote (BN) (1) e não entendia a necessidade de usar médias móveis para rastrear a precisão do modelo e, mesmo se eu aceitasse que era a coisa certa a fazer, não entendo o que eles estão fazendo exatamente. Para meu entendimento (o …

1
Forma matricial de retropropagação com normalização em lote
A normalização de lotes foi creditada com melhorias substanciais de desempenho em redes neurais profundas. Muito material na internet mostra como implementá-lo, ativação por ativação. Eu já implementei backprop usando álgebra matricial e, como estou trabalhando em linguagens de alto nível (enquanto confio em Rcpp(e eventualmente GPUs) para multiplicação densa …


2
Existem maneiras de lidar com o gradiente de fuga para saturar não linearidades que não envolvem normalização em lote ou unidades ReLu?
Eu queria treinar uma rede com não linearidades que sofrem com o desaparecimento (ou o problema do gradiente explodindo, embora principalmente o desaparecimento). Sei que a maneira padrão (atual) é usar a normalização de lote 1 [BN] 1 ou simplesmente abandonar a não linearidade e usar as unidades ReLu Rectifier …

2
Como a normalização em lote calcula as estatísticas da população após o treinamento?
Eu estava lendo o documento de normalização em lote (BN) (1) e dizia: Para isso, uma vez treinada a rede, usamos a normalização x^=x−E[x]Var[x]+ϵ−−−−−−−−√x^=x−E[x]Var[x]+ϵ\hat{x} = \frac{x - E[x]}{ \sqrt{Var[x] + \epsilon}}usando a população , em vez de estatísticas de minilote. minha pergunta é: como ele calcula as estatísticas dessa população …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.