Mas na iteração de políticas também temos que gerar um vetor softmax relacionado a cada ação
Isto não é estritamente verdade. Um vetor softmax é uma maneira possível de representar uma política e funciona em espaços de ação discretos. A diferença entre o gradiente de política e as funções de valor abordadas aqui está em como você usa a saída. Para uma função de valor, você encontraria a saída máxima e escolheria (talvez -gredily), e deve ser uma estimativa do valor de executar essa ação. Para uma função de política, você usaria a saída como probabilidade para escolher cada ação e não sabe o valor de executar essa ação.ϵ
Então, eu não entendo como isso pode ser usado para trabalhar com espaço de ação contínuo?
Com métodos de gradiente de política, a política pode ser qualquer função dos seus parâmetros que:θ
Por exemplo, sua função de política pode ser
πθ(s)=N(μ(s,θ),σ(s,θ))
onde e podem ser funções que você implementa com, por exemplo, uma rede neural. A saída da rede é uma descrição da distribuição Normal para o valor da ação a dado valor de estado . A política exige que você faça uma amostra da distribuição normal definida por esses valores (o NN não faz essa amostragem, normalmente é necessário adicioná-la no código).μσas
Por que os métodos de gradiente de política são preferidos à aproximação da função de valor em domínios de ação contínua?
Embora ainda seja possível estimar o valor de um par de estado / ação em um espaço de ação contínuo, isso não ajuda a escolher uma ação. Considere como você pode implementar uma política -greedy usando a aproximação do valor da ação: seria necessário executar uma otimização no espaço de ação para cada opção de ação, a fim de encontrar a ação ideal estimada. Isso é possível, mas provavelmente muito lento / ineficiente (também existe o risco de encontrar o máximo local).ϵ
Trabalhar diretamente com políticas que emitem distribuições de probabilidade pode evitar esse problema, desde que essas distribuições sejam fáceis de amostrar. Portanto, muitas vezes você verá coisas como políticas que controlam parâmetros da distribuição Normal ou similar, porque é sabido como fazer uma amostra fácil dessas distribuições.