Eu estava lendo o documento de normalização em lote (BN) (1) e não entendia a necessidade de usar médias móveis para rastrear a precisão do modelo e, mesmo se eu aceitasse que era a coisa certa a fazer, não entendo o que eles estão fazendo exatamente.
Para meu entendimento (o que posso estar errado), o artigo menciona que ele usa as estatísticas populacionais em vez do minilote, estatísticas quando o modelo termina o treinamento. Depois de alguma discussão sobre estimativas imparciais (isso me parece tangencial e não entendo por que fala sobre isso), eles dizem:
Usando médias móveis, rastreamos a precisão do modelo enquanto ele treina.
Essa é a parte que é confusa para mim. Por que eles fazem médias móveis para estimar a precisão do modelo e sobre qual conjunto de dados?
Normalmente, o que as pessoas fazem para estimar a generalização de seu modelo, elas apenas rastreiam o erro de validação de seu modelo (e potencialmente interrompem precocemente sua descida do gradiente para regularizar). No entanto, parece que a normalização de lote está fazendo algo completamente diferente. Alguém pode esclarecer o que e por que está fazendo algo diferente?
1 : Ioffe S. e Szegedy C. (2015),
"Normalização de lotes: acelerando o treinamento em rede profunda, reduzindo a mudança de Covariável Interna",
Anais da 32ª Conferência Internacional sobre Aprendizado de Máquina , Lille, França, 2015.
Journal of Machine Learning Research: Volume W&CP 37