Por uma questão de exemplo, vamos supor que estamos construindo um estimador de idade, com base na imagem de uma pessoa. Abaixo, temos duas pessoas de terno, mas a primeira é claramente mais nova que a segunda.
(fonte: tinytux.com )
Existem muitos recursos que implicam isso, por exemplo, a estrutura da face. No entanto, o recurso mais revelador é a proporção entre o tamanho da cabeça e o tamanho do corpo :
(fonte: wikimedia.org )
Então, suponha que tenhamos treinado uma regressão da CNN para prever a idade da pessoa. Em muitos dos preditores de idade que eu tentei, a imagem acima do garoto parece enganar as previsões para pensar que ele é mais velho, por causa do processo e provavelmente porque elas dependem principalmente do rosto:
Eu estou querendo saber o quão bem uma arquitetura CNN de baunilha pode inferir a proporção da cabeça ao tronco?
Comparada a uma RCNN regional, capaz de colocar caixas delimitadoras no corpo e na cabeça, a CNN de baunilha sempre terá um desempenho pior?
Pouco antes do achatamento global na CNN de baunilha (ou seja, logo após todas as convoluções), cada saída tem um campo receptivo correspondente, que deve ter um senso de escala. Eu sei que o RCNN mais rápido explora isso fazendo propostas de caixas delimitadoras exatamente nesse estágio, para que todos os filtros convolucionais anteriores treinem automaticamente para todas as escalas.
Então, eu acho que a CNN de baunilha deve ser capaz de inferir a proporção entre o tamanho da cabeça e o tronco? Isto está certo? Em caso afirmativo, é o único benefício de usar uma estrutura RCNN mais rápida para explorar o fato de que pode ter sido pré-treinado em detectar pessoas?