Eu estava lendo o documento de normalização em lote (BN) (1) e dizia:
Para isso, uma vez treinada a rede, usamos a normalização
usando a população , em vez de estatísticas de minilote.
minha pergunta é: como ele calcula as estatísticas dessa população e sobre qual conjunto de treinamento (teste, validação, treinamento)? Eu pensei que sabia o que isso significava, mas depois de algum tempo, percebo que não tenho certeza de como isso é calculado. Suponho que ele tente estimar a verdadeira média e variância, embora não tenha certeza de como isso acontece. O que eu provavelmente faria é calcular a média e a variação de acordo com todo o conjunto de dados e usar esses momentos para inferir.
No entanto, o que me fez suspeitar que estou errado é a discussão deles sobre a estimativa de variância imparcial, mais adiante na mesma seção:
Usamos a estimativa de variância imparcial onde a expectativa é mais do que treinar mini-lotes de tamanho e são suas variações de amostra.
Já que estamos falando de estatísticas populacionais, esse comentário no jornal parece ter saído do nada (para mim) e não tinha certeza do que eles estavam falando. Eles estão apenas esclarecendo (aleatoriamente) que usam estimativas imparciais durante o treinamento ou estão usando uma estimativa imparcial para calcular a estatística da população?
1 : Ioffe S. e Szegedy C. (2015),
"Normalização de lotes: acelerando o treinamento em rede profunda reduzindo a mudança de Covariável Interna",
Anais da 32ª Conferência Internacional sobre Aprendizado de Máquina , Lille, França, 2015.
Journal of Machine Learning Research: Volume W&CP 37