Uma camada de gargalo é uma camada que contém poucos nós em comparação com as camadas anteriores. Pode ser usado para obter uma representação da entrada com dimensionalidade reduzida. Um exemplo disso é o uso de auto-codificadores com camadas de gargalo para redução de dimensionalidade não linear.
Meu entendimento da citação é que abordagens anteriores usam uma rede profunda para classificar faces. Eles pegam as primeiras várias camadas dessa rede, da entrada até uma camada intermediária (por exemplo, a ésima camada, contendo nós). Essa sub-rede implementa um mapeamento do espaço de entrada para um espaço vetorial dimensional . A ésima camada é uma camada de gargalo, portanto, o vetor de ativações de nós na ésima camada fornece uma representação dimensional mais baixa da entrada. A rede original não pode ser usada para classificar novas identidades nas quais não foi treinada. Mas, oknknkkkka camada pode fornecer uma boa representação das faces em geral. Portanto, para aprender novas identidades, novas camadas classificadoras podem ser empilhadas sobre a ésima camada e treinadas. Ou, os novos dados de treinamento podem ser alimentados através da sub-rede para obter representações da ésima camada, e essas representações podem ser alimentadas para algum outro classificador.kk