Recurso extraído pelo pool máximo versus pool médio

8

No aprendizado profundo e na aplicação à visão computacional, é possível dizer que tipo de recursos esses dois tipos de extrato de pooling? Por exemplo, é possível dizer que max pool extrai arestas? Podemos dizer algo semelhante em relação ao agrupamento médio?

PS fique à vontade para recomendar se o stackoverflow é mais adequado.

— editar
fonte

11

Eu não diria que o quer extrair características. Em vez disso, são as camadas convolucionais que constroem / extraem recursos, e as camadas de pool as comprimem para uma fidelidade mais baixa. A diferença está na maneira como a compactação acontece e que tipo de fidelidade é retida:

Uma camada de pool máximo compactada tendo a ativação máxima em um bloco. Se você tiver um bloco com ativação principalmente pequena, mas com um pouco de ativação grande, você perderá as informações das ativações baixas. Penso nisso dizendo "esse tipo de recurso foi detectado nesta área geral".
Uma camada de pool médio é compactada tomando a ativação média em um bloco. Se grandes ativações são equilibradas por ativações negativas, as ativações compactadas gerais parecerão sem ativação. Por outro lado, você retém algumas informações sobre baixas ativações no exemplo anterior.

— Matthew Drury
fonte

4

minha opinião é que o pool máximo e médio não tem nada a ver com o tipo de recursos, mas com a invariância da tradução.

Imagine aprender a reconhecer um 'A' vs 'B' (sem variação nos pixels de A e B). Primeiro em uma posição fixa na imagem. Isso pode ser feito por uma regressão logística (1 neurônio): os pesos acabam sendo um modelo da diferença A - B.

Agora, o que acontece se você treinar para reconhecer em diferentes locais da imagem. Você não pode fazer isso com regressão logística, varrendo a imagem (ou seja, aproximando uma camada convolucional com um filtro) e rotulando todas as varreduras da imagem A ou B conforme apropriado, porque o aprendizado das diferentes posições interfere - efetivamente você tenta aprender a média de AB como A / B são passados pelo filtro - mas isso é apenas um borrão.

com o pool máximo, o aprendizado é realizado apenas no local da ativação máxima (que, esperançosamente, está centralizado na letra). Não tenho tanta certeza sobre o pool médio - eu imagino que mais aprendizado (ou seja, ajuste de peso) seja feito no local máximo de ativação e evite o embaçamento ...

Eu o encorajaria a implementar uma rede tão simples com 2 classes e 1 filtro para a camada convolucional, depois o pool máximo / médio e 1 nó de saída e inspecionar os pesos / desempenho.

— seanv507
fonte