Podemos resolver o problema da seguinte maneira:
<x0,y0,x1,y1>(x0−y0)2+(x1−y1)2−−−−−−−−−−−−−−−−−−√
<x0,y0,x1,y1>
Obviamente, não há razão para fazer isso em duas redes neurais separadas, para que possamos combinar os dois de ponta a ponta com um modelo que leva a imagem como entrada e a distância como saída.
No entanto, esse modelo precisa ser treinado em dados rotulados, portanto, você precisará gerar os dados por conta própria ou rotular imagens.
Mas se você quiser aprender a noção de fechar uma distância de uma maneira menos supervisionada, precisará usar o aprendizado por reforço. Nesse caso, você precisaria configurar um ambiente que incentive o agente a reduzir a distância. Isso pode ser tão simples quanto ganhar recompensa se uma ação reduzir a distância.
Outra abordagem seria incentivar o agente usando recompensa futura. Ou seja, sua recompensa não vem apenas dos resultados do próximo estado imediato, mas também há contribuições do próximo estado possível, e do seguinte, e assim por diante. Essa é a idéia por trás do Deep Q-Learning, e eu implementei um exemplo simples (muito semelhante ao que você está descrevendo) neste caderno .
Então, agora a pergunta é: essa implementação fez algo diferente de se mover aleatoriamente até seguir um caminho para o sucesso?
No seu exemplo, você fala sobre recompensar o agente quando ele atinge o objetivo. Mas no que descrevi, ele ganhou recompensa ao se aproximar da meta (por meio da função Q ou diretamente do ambiente). É capaz de fazê-lo aprendendo alguma idéia abstrata de distância (que pode ser ilustrada na versão supervisionada).
Quando um humano aprende isso, é pela mesma razão exata: o humano está ganhando uma recompensa por seguir nessa direção através de um senso de recompensas futuras.
Eu diria que, com treinamento e dados suficientes, o aprendizado por reforço pode aprender esse conceito com facilidade. Quanto a outras recompensas presentes no quadro (por exemplo, "minimize a entropia do quadro e tente obter recompensas"), você precisa pensar no que está pedindo. Você prefere que o agente minimize a distância ou maximize a recompensa? Porque, em geral, não pode fazer as duas coisas. Se você está procurando algum equilíbrio entre os dois, realmente está redefinindo a recompensa para também considerar a distância.