Li recentemente o comentário de Yan LeCuns sobre convoluções 1x1 :
Nas redes convolucionais, não existem "camadas totalmente conectadas". Existem apenas camadas de convolução com kernels de convolução 1x1 e uma tabela de conexão completa.
É um fato raramente compreendido que ConvNets não precisam ter uma entrada de tamanho fixo. Você pode treiná-los em entradas que produzam um único vetor de saída (sem extensão espacial) e depois aplicá-las a imagens maiores. Em vez de um único vetor de saída, você obtém um mapa espacial dos vetores de saída. Cada vetor vê janelas de entrada em diferentes locais na entrada. Nesse cenário, as "camadas totalmente conectadas" realmente atuam como convoluções 1x1.
Eu gostaria de ver um exemplo simples para isso.
Exemplo
Suponha que você tenha uma rede totalmente conectada. Possui apenas uma camada de entrada e uma camada de saída. A camada de entrada possui 3 nós, a camada de saída possui 2 nós. Esta rede possui parâmetros. Para torná-lo ainda mais concreto, digamos que você tenha uma função de ativação ReLU na camada de saída e na matriz de peso
Portanto, a rede é com .
Como a camada convolucional deveria parecer a mesma? O que significa LeCun com "tabela de conexão completa"?
Eu acho que para obter uma CNN equivalente, teria que ter exatamente o mesmo número de parâmetros. O MLP acima tem parâmetros.