A maioria das introduções ao campo dos MDPs e da aprendizagem por reforço se concentra exclusivamente em domínios em que as variáveis de espaço e ação são números inteiros (e finitos). Dessa forma, somos apresentados rapidamente à Iteração de Valor, Q-Learning e similares.
No entanto, as aplicações mais interessantes (por exemplo, helicópteros voadores ) de RL e MDPs envolvem espaço de estado e espaços de ação contínuos. Gostaria de ir além das apresentações básicas e focar nesses casos, mas não sei como chegar lá.
Que áreas eu preciso conhecer ou estudar para entender esses casos em profundidade?