Conhecer os MDPs de espaços contínuos de estado / ação e Aprendizagem por Reforço

A maioria das introduções ao campo dos MDPs e da aprendizagem por reforço se concentra exclusivamente em domínios em que as variáveis de espaço e ação são números inteiros (e finitos). Dessa forma, somos apresentados rapidamente à Iteração de Valor, Q-Learning e similares.

No entanto, as aplicações mais interessantes (por exemplo, helicópteros voadores ) de RL e MDPs envolvem espaço de estado e espaços de ação contínuos. Gostaria de ir além das apresentações básicas e focar nesses casos, mas não sei como chegar lá.

Que áreas eu preciso conhecer ou estudar para entender esses casos em profundidade?

research reinforcement-learning control-problem

— CarrKnight
fonte

Há uma pequena pesquisa de estados contínuos, ações e tempo no aprendizado por reforço na minha proposta de tese .

Em relação aos livros, Aprendizado por Reforço: o estado da arte parece estar bastante atualizado com os trechos que li.

— rcpinto
fonte