Inteligência artificial trpo

Como os gradientes de políticas podem ser aplicados no caso de várias ações contínuas?

O Trusted Region Policy Optimization (TRPO) e o Proximal Policy Optimization (PPO) são dois algoritmos avançados de gradientes de políticas. Ao usar uma única ação contínua, normalmente, você usaria alguma distribuição de probabilidade (por exemplo, Gaussiana) para a função de perda. A versão aproximada é: L ( θ ) = …

11 deep-learning reinforcement-learning trpo

Perguntas com a marcação «trpo»