O Trusted Region Policy Optimization (TRPO) e o Proximal Policy Optimization (PPO) são dois algoritmos avançados de gradientes de políticas.
Ao usar uma única ação contínua, normalmente, você usaria alguma distribuição de probabilidade (por exemplo, Gaussiana) para a função de perda. A versão aproximada é:
onde é a vantagem das recompensas, é caracterizado por e que saem da rede neural como no ambiente do pêndulo aqui: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py .
O problema é que não consigo encontrar nenhum trabalho sobre mais de 2 ações contínuas usando gradientes de política (não métodos críticos de ator que usam uma abordagem diferente ao transferir gradiente da função Q).
Você sabe como fazer isso usando o TRPO para 2 ações contínuas no ambiente LunarLander ?
A abordagem a seguir está correta para a função de perda de gradiente de política?