As palavras-chave aqui são priores e escala . Como um exemplo simples, imagine que você está tentando prever a idade de uma pessoa a partir de uma fotografia. Com um conjunto de dados de imagens e idades, você pode treinar um modelo de aprendizado profundo para fazer as previsões. Isso é objetivamente muito ineficiente porque 90% da imagem é inútil e apenas a região com a pessoa é realmente útil. Em particular, o rosto da pessoa, seu corpo e talvez suas roupas.
Por outro lado, você pode usar uma rede de detecção de objetos pré-treinada para primeiro extrair caixas delimitadoras para a pessoa, cortar a imagem e depois passá-la pela rede. Esse processo melhorará significativamente a precisão do seu modelo por vários motivos:
1) Todos os recursos da rede (ou seja, pesos) podem se concentrar na tarefa real de previsão de idade, em vez de precisar encontrar a pessoa primeiro. Isso é especialmente importante porque o rosto da pessoa contém recursos úteis. Caso contrário, os recursos mais refinados de que você precisa podem se perder nas primeiras camadas. Em teoria, uma rede grande o suficiente poderia resolver isso, mas seria terrivelmente ineficiente. A imagem cortada também é consideravelmente mais regular que a imagem original. Enquanto a imagem original tem muito ruído, é possível argumentar que as discrepâncias na imagem cortada estão muito mais correlacionadas com o objetivo.
2) A imagem cortada pode ser normalizada para ter a mesma escala . Isso ajuda a segunda rede a lidar com problemas de dimensionamento, porque na imagem original, as pessoas podem ocorrer próximas ou distantes. A normalização da escala antecipadamente faz com que a imagem recortada tenha a garantia de ter uma pessoa que preencha a imagem recortada completa (apesar de ter uma pixelização se estiver longe). Para ver como isso pode ajudar a dimensionar, um corpo cortado com metade da largura e altura da imagem original tem 4x menos pixels para processar e, portanto, a mesma rede aplicada a esta imagem teria 4x o campo receptivo da rede original em cada camada.
Por exemplo, na competição de pulmão de kaggle, um tema comum nas principais soluções era algum tipo de pré-processamento nas imagens de pulmão que as recortava o máximo possível e isolava os componentes de cada pulmão. Isso é especialmente importante em imagens 3D, pois o efeito é cúbico: removendo 20% de cada dimensão, você se livra de quase metade dos pixels!