O venerável algoritmo teórico do gráfico de caminho mais curto A * e as melhorias subsequentes (por exemplo, Hierarchical Annotated A *) são claramente a técnica de escolha para a busca de caminhos no desenvolvimento de jogos.
Em vez disso, parece-me que RL é um paradigma mais natural para mover um personagem pelo espaço do jogo.
E, no entanto, não conheço um único desenvolvedor de jogos que tenha implementado um mecanismo de busca de caminhos baseado no Reinforcement Learning. (Não deduzo disso que a aplicação de RL na busca de caminhos seja 0, apenas que é muito pequena em relação a A * e amigos.)
Seja qual for o motivo, não é porque esses desenvolvedores desconhecem a RL, como evidenciado pelo fato de que a RL é freqüentemente usada em outras partes do mecanismo de jogo.
Esta questão não é um pretexto para oferecer uma opinião sobre RL na busca de caminhos; de fato, estou assumindo que a preferência tácita por A * et al. over RL está correto - mas essa preferência não é obviamente para mim e estou muito curioso sobre o motivo, principalmente de quem tentou usar o RL para encontrar caminhos.