minha opinião é que o pool máximo e médio não tem nada a ver com o tipo de recursos, mas com a invariância da tradução.
Imagine aprender a reconhecer um 'A' vs 'B' (sem variação nos pixels de A e B). Primeiro em uma posição fixa na imagem. Isso pode ser feito por uma regressão logística (1 neurônio): os pesos acabam sendo um modelo da diferença A - B.
Agora, o que acontece se você treinar para reconhecer em diferentes locais da imagem. Você não pode fazer isso com regressão logística, varrendo a imagem (ou seja, aproximando uma camada convolucional com um filtro) e rotulando todas as varreduras da imagem A ou B conforme apropriado, porque o aprendizado das diferentes posições interfere - efetivamente você tenta aprender a média de AB como A / B são passados pelo filtro - mas isso é apenas um borrão.
com o pool máximo, o aprendizado é realizado apenas no local da ativação máxima (que, esperançosamente, está centralizado na letra). Não tenho tanta certeza sobre o pool médio - eu imagino que mais aprendizado (ou seja, ajuste de peso) seja feito no local máximo de ativação e evite o embaçamento ...
Eu o encorajaria a implementar uma rede tão simples com 2 classes e 1 filtro para a camada convolucional, depois o pool máximo / médio e 1 nó de saída e inspecionar os pesos / desempenho.