Existem algumas variações de como normalizar as imagens, mas a maioria parece usar esses dois métodos:
- Subtraia a média por canal calculada em todas as imagens (por exemplo, VGG_ILSVRC_16_layers )
- Subtrair por pixel / canal calculado sobre todas as imagens (por exemplo , CNN_S , consulte também a rede de referência da Caffe )
Na minha opinião, a abordagem natural normalizaria cada imagem. Uma imagem tirada em plena luz do dia fará com que mais neurônios disparem do que uma imagem noturna e, embora possa nos informar sobre o tempo em que geralmente nos preocupamos com recursos mais interessantes presentes nas bordas, etc.
Pierre Sermanet refere em 3.3.3 que a normalização de contraste local que seria baseada em imagem, mas não encontrei isso em nenhum dos exemplos / tutoriais que vi. Também vi uma pergunta interessante do Quora e o post de Xiu-Shen Wei, mas eles não parecem apoiar as duas abordagens acima.
O que exatamente estou perdendo? Esse é um problema de normalização de cores ou existe um artigo que realmente explica por que tantos usam essa abordagem?