Definimos uma arquitetura de gargalo como o tipo encontrado no artigo da ResNet , em que [duas camadas de conv3 3x3] são substituídas por [uma conv de 1x1, uma conv de 3x3 e outra conv. De 1x1].
Entendo que as camadas 1x1 conv são usadas como uma forma de redução de dimensão (e restauração), explicada em outro post . No entanto, não estou claro por que essa estrutura é tão eficaz quanto o layout original.
Algumas boas explicações podem incluir: Qual o comprimento da passada e em que camadas? Quais são as dimensões de entrada e saída de exemplo de cada módulo? Como os mapas de recursos de 56x56 são representados no diagrama acima? Os 64-d se referem ao número de filtros, por que isso difere dos filtros de 256-d? Quantos pesos ou FLOPs são usados em cada camada?
Qualquer discussão é muito apreciada!