1
Como os gradientes de políticas podem ser aplicados no caso de várias ações contínuas?
O Trusted Region Policy Optimization (TRPO) e o Proximal Policy Optimization (PPO) são dois algoritmos avançados de gradientes de políticas. Ao usar uma única ação contínua, normalmente, você usaria alguma distribuição de probabilidade (por exemplo, Gaussiana) para a função de perda. A versão aproximada é: L ( θ ) = …