Essa é uma pergunta muito boa e você precisa entender isso para obter mais compreensão do aprendizado profundo.
Basicamente, você tem imagens brutas, vamos tirar uma imagem. Esta imagem possui 3 canais e em cada canal os valores de pixel variam de 0 a 255.
Nosso objetivo aqui é compactar o intervalo de valores para todos os pixels nos três canais para um intervalo muito pequeno. É aqui que entra o pré-processamento. Mas não pense que o pré-processamento envolve apenas as técnicas média e padrão de desenvolvimento, existem muitas outras, como PCA, clareamento etc.
1) Usando média: calculando a média, digamos, os primeiros valores de pixel vermelho em todas as imagens de treinamento obterão o valor médio da cor vermelha presente em todas as imagens de treinamento na primeira posição. Da mesma forma, você encontra isso para todos os valores de canal vermelho e verde. Finalmente, você obtém uma imagem média de todas as imagens de treinamento.
Agora, se você subtrair essa imagem média de todas as imagens de treinamento, obviamente você transforma os valores de pixel das imagens, a imagem não é mais interpretável para o olho humano, os valores pixal agora estão no intervalo de positivo a negativo, onde a média está em zero .
2) Agora, se você dividi-los novamente por desvio padrão, você reduz o valor do pixel antes para um pequeno intervalo.
MAS POR QUE TUDO ISSO? Direi da minha experiência que fazer esse pré-processamento nas imagens e depois fornecer essas imagens transformadas ao modelo classificador será executado mais rápido e melhor. É por isso.
Ao aprender profundamente, examine a normalização em lote depois de entender esse conceito de normalização