Mais uma idéia sobre redução de dimensionalidade no contexto de filtros 1x1:
Tomemos, por exemplo, uma camada 4096x8x8 fc7 da FCN. O que acontece se a próxima camada (chamada fc8) for 2048x8x8 com tamanho de filtro 1? O fc7 é muito profundo na rede, cada um dos seus recursos 4096 é semanticamente rico, mas cada neurônio (por exemplo, a imagem de entrada é 250x250x3) possui um grande campo receptivo. Em outras palavras, se um neurônio é muito ativo, sabemos que em algum lugar do seu campo semântico há uma característica correspondente presente.
Tomemos, por exemplo, um neurônio superior esquerdo em fc8 com um filtro 1x1. Ele se conecta a todos os 4096 neurônios / características apenas no mesmo campo receptivo (canto superior esquerdo da imagem), cada um dos quais é ativado por uma única característica. Alguns (vamos mesmo 500) deles são muito ativos. Se o neurônio resultante também for muito ativo, significa que provavelmente aprendeu a identificar 1 ou mais características nesse campo receptivo. Depois de fazer isso 2048 vezes para os neurônios mais à esquerda no fc8, alguns deles (por exemplo, 250) serão muito ativos, o que significa que eles 'coletaram' recursos do mesmo campo receptivo através do fc7 e muitos provavelmente mais do que 1.
Se você continuar reduzindo a dimensionalidade, um número decrescente de neurônios estará aprendendo um número crescente de características do mesmo campo receptivo. E como os parâmetros espaciais 8x8 permanecem os mesmos, não alteramos a 'visão' de cada neurônio, portanto, não diminuímos a aspereza espacial.
Você pode dar uma olhada em 'Redes totalmente convolucionais' de Long, Shelhamer e Darrel.