Dinâmica de aprendizagem

Recentemente, aprendi sobre o Q-learning, uma técnica de aprendizado por reforço que estima diretamente o valor esperado de uma ação em um estado.

Gostaria de saber se existem técnicas para fazer "aprendizado dinâmico", a fim de estimar a dinâmica de um sistema. Um agente de "aprendizado dinâmico" pode escolher ações que o ajudem a estimar a função de transição de estado ou a estimar parâmetros de alguma função de transição conhecida.

Por exemplo, um agente de "aprendizado dinâmico" no sistema de carrinho de pólo descobriria uma função que se aproxima das equações de movimento do carrinho de pólo. Ou, o agente pode conhecer essas equações, mas não os parâmetros do sistema, como o momento de inércia do pêndulo ou a massa do carrinho.

Que técnicas existem para fazer a "aprendizagem dinâmica"?

machine-learning physics

— Robz
fonte

Existem três questões. Primeiro, você deve escolher uma classe de modelos para a dinâmica. Segundo, você deve construir um conjunto de treinamento, levando o agente por diferentes trajetórias para explorar o espaço de estados. Terceiro, você precisa de uma maneira de aprender / inferir um modelo de dinâmica específico desse conjunto de treinamento. Existem diferentes maneiras de instanciar cada uma dessas tarefas.

Em robótica, uma escolha comum é usar um processo de decisão de Markov (MDP) para o modelo de dinâmica. Essa é uma opção de conveniência, porque existem maneiras relativamente padrão de aprender um MDP a partir de um conjunto de treinamento e, dado um modelo de dinâmica do MDP, é bem estudado como construir um controlador para o sistema que leva em consideração a dinâmica. Outra opção é usar um processo de decisão de Markov de ordem superior ou um processo de decisão de Markov parcialmente observável, mas esses podem ser muito mais difíceis de trabalhar.

Existem muitas maneiras de explorar o espaço do estado. O capítulo 3.1 da tese de doutorado de Pieter Abbeel tem uma boa visão geral a partir de 2008.

Para inferir / aprender um MDP com um conjunto de treinamento, você pode usar a estimativa de probabilidade máxima. Técnicas mais sofisticadas também são possíveis; veja a tese de doutorado de Abbeel para uma visão geral disso também (Capítulos 3 e 4).

De maneira mais geral, consulte a literatura sobre identificação de sistemas no campo da teoria do controle.

— DW
fonte