Pelo que entendi, o problema é o seguinte: No reconhecimento de imagens, as entradas para sua rede podem ser os pixels (em escala de cinza ou apenas 1 e 0 para preto e branco). Se você quiser, por exemplo, reconhecer números manuscritos, é muito difícil trabalhar apenas com esses valores, pois você nunca sabe onde será exatamente o número (ou seja, os valores em preto).
O pixel 140 é preto ou 142 é preto? Nos dois casos, pode ser um três. No exemplo de idade / peso, essas entradas estão bem definidas. O recurso 2 é peso. O recurso 3 é a idade. Essas "dimensões" não devem "saltar" no seu conjunto de dados.
Portanto: no treinamento da sua imagem, os "três" ou "carros" ou "casas" devem ser reconhecidos independentemente de sua localização na imagem, ou seja, os valores de pixel, ou seja, o vetor de característica / entrada, ou seja, as dimensões em oposição às claramente definidas entradas como dados do paciente.
Como você resolve isso no reconhecimento de imagens? Você usa truques adicionais, por exemplo, convolução.