Recentemente, aprendi sobre o Q-learning, uma técnica de aprendizado por reforço que estima diretamente o valor esperado de uma ação em um estado.
Gostaria de saber se existem técnicas para fazer "aprendizado dinâmico", a fim de estimar a dinâmica de um sistema. Um agente de "aprendizado dinâmico" pode escolher ações que o ajudem a estimar a função de transição de estado ou a estimar parâmetros de alguma função de transição conhecida.
Por exemplo, um agente de "aprendizado dinâmico" no sistema de carrinho de pólo descobriria uma função que se aproxima das equações de movimento do carrinho de pólo. Ou, o agente pode conhecer essas equações, mas não os parâmetros do sistema, como o momento de inércia do pêndulo ou a massa do carrinho.
Que técnicas existem para fazer a "aprendizagem dinâmica"?