A ideia de aplicar filtros para fazer algo como identificar arestas é uma ideia bem legal.
Por exemplo, você pode tirar uma imagem de 7. Com alguns filtros, você pode acabar com imagens transformadas que enfatizam diferentes características da imagem original. O original 7:
pode ser experimentado pela rede como:
Observe como cada imagem extraiu uma borda diferente da original 7.
Tudo isso é ótimo, mas diga que a próxima camada da sua rede é uma camada de Max Pooling.
Minha pergunta é, geralmente, isso não parece um pouco exagerado? Éramos muito cuidadosos e deliberados na identificação de arestas usando filtros - agora, não nos importamos mais com isso, pois eliminamos os valores de pixel! Por favor, corrija-me se estiver errado, mas passamos de 25 X 25 para 2 X 2! Por que não ir direto ao Max Pooling, então, não acabaremos basicamente com a mesma coisa?
Como uma extensão da minha pergunta, não posso deixar de imaginar o que aconteceria se, coincidentemente, cada um dos quatro quadrados tivesse um pixel com o mesmo valor máximo. Certamente este não é um caso raro, certo? De repente, todas as suas imagens de treinamento parecem exatamente iguais.
The pooling operation provides a form of translation invariance
?