Razão para imagens quadradas no aprendizado profundo


12

A maioria dos modelos avançados de aprendizado profundo, como VGG, ResNet etc., requer imagens quadradas como entrada, geralmente com um tamanho de pixel de 224x224 .

Existe uma razão pela qual a entrada tenha que ter a mesma forma ou posso construir um modelo convnet com, digamos, 100x200 também (se eu quiser fazer o reconhecimento facial, por exemplo, e tiver imagens de retrato)?

Há maior benefício com um tamanho de pixel maior, digamos 512x512 ?

Respostas:


10

Não há necessidade de dimensões específicas de pixel para que as redes neurais convolucionais funcionem normalmente. É provável que os valores tenham sido escolhidos por motivos pragmáticos - como um comprometimento entre o uso de detalhes da imagem versus número de parâmetros e o tamanho do conjunto de treinamento necessário.

Além disso, se os dados de origem tiverem uma variedade de proporções diferentes, alguns retratos, algumas paisagens, com o objeto de destino geralmente no centro, então fazer um corte quadrado do meio pode ser um compromisso razoável.

Ao aumentar o tamanho da imagem de entrada, você também aumentará a quantidade de ruído e variação com a qual a rede precisará lidar para processar essa entrada. Isso pode significar mais camadas - tanto convolucionais quanto combinadas. Também pode significar que você precisa de mais exemplos de treinamento e, é claro, cada exemplo de treinamento será maior. Juntos, eles aumentam os recursos de computação necessários para concluir o treinamento. No entanto, se você puder superar esse requisito, é possível que você acabe com um modelo mais preciso, para qualquer tarefa em que os pixels extras possam fazer a diferença.

Uma regra possível para se você deseja uma resolução mais alta é se, para o objetivo da sua rede, um especialista humano pode usar a resolução extra e ter um desempenho melhor na tarefa. Esse pode ser o caso em sistemas de regressão, nos quais a rede está derivando algumas quantidades numéricas da imagem - por exemplo, para reconhecimento de face, extração biométrica, como distância entre as características faciais. Também pode ser desejável para tarefas de processamento de imagens, como mascaramento automatizado - os resultados mais avançados para essas tarefas ainda podem ter resolução menor do que as imagens comerciais nas quais gostaríamos de aplicá-las na prática.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.