Estou pensando em programar uma linha após o robô usando algoritmos de aprendizado por reforço. A questão que estou pensando é como posso obter o algoritmo para aprender a navegar por qualquer caminho arbitrário?
Depois de seguir o livro de Sutton & Barto para aprender reforço, resolvi um problema de exercício envolvendo uma pista de corrida onde o agente do carro aprendia a não sair da pista e regular sua velocidade. No entanto, esse problema de exercício levou o agente a aprender a navegar na pista em que treinou.
Está no escopo do aprendizado por reforço conseguir que um robô navegue por caminhos arbitrários? O agente precisa absolutamente ter um mapa do circuito ou caminho da corrida? Quais parâmetros eu poderia usar para meu espaço de estado?