O que são recursos de gargalo?


11

Na postagem do blog Construindo poderosos modelos de classificação de imagens usando muito poucos dados , são mencionados os recursos de gargalo. Quais são os recursos de gargalo? Eles mudam com a arquitetura usada? Eles são o resultado final das camadas convolucionais antes da camada totalmente conectada? Por que eles são chamados assim?


Respostas:


9

Na postagem do blog Construindo poderosos modelos de classificação de imagens usando muito poucos dados , são mencionados os recursos de gargalo. Quais são os recursos de gargalo?

Está claramente escrito no link que você forneceu os "recursos de gargalo" do modelo VGG16: os últimos mapas de ativação antes das camadas totalmente conectadas .

Eles mudam com a arquitetura usada?

Certo. O autor provavelmente usou um modelo pré-treinado (treinado em grandes dados e agora usado apenas como um extrator de recursos)

Eles são o resultado final das camadas convolucionais antes da camada totalmente conectada?

Sim.

Por que eles são chamados assim?

Dado o tamanho da entrada para o VGG, os mapas de recursos das dimensões HxW estão ficando duas vezes menores após cada operação de pool máximo. AxL é o menor da última camada convolucional.


6

Primeiro, precisamos falar sobre a transferência de aprendizado. Imagine que você treinou uma rede neuronal através de um conjunto de dados de imagens para detectar gatos. Você pode usar parte do treinamento realizado para trabalhar com outra detecção de outra coisa. Isso é conhecido como aprendizado de transferência.

Para transferir o aprendizado, você removerá a última camada totalmente conectada do modelo e as conectará lá. A saída do modelo "truncado" será os recursos que preencherão o seu "modelo". Esses são os recursos de gargalo.

O VGG16 é um modelo de pré-treinamento no catálogo ImageNet que possui uma precisão muito boa. Na postagem que você compartilhou, está usando esse modelo como base para detectar cães e gatos com maior precisão.

Os recursos de gargalo dependem do modelo. Nesse caso, estamos usando o VGG16. Existem outros modelos pré-treinados como VGG19, ResNet-50

É como se você estivesse cortando um modelo e adicionando suas próprias camadas. Principalmente, a camada de saída para decidir o que você deseja detectar, a saída final.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.