Por que a taxa de desconto no algoritmo REINFORCE aparece duas vezes?

11

Eu estava lendo o livro Reinforcement Learning: An Introduction, de Richard S. Sutton e Andrew G. Barto (rascunho completo, 5 de novembro de 2017).

Na página 271, é apresentado o pseudocódigo do método episódico de política de gradiente de Monte-Carlo. Olhando para esse pseudocódigo, não consigo entender por que parece que a taxa de desconto aparece 2 vezes, uma vez no estado de atualização e uma segunda vez dentro do retorno. [Veja a figura abaixo]

Parece que o retorno das etapas após a etapa 1 é apenas um truncamento do retorno da primeira etapa. Além disso, se você olhar apenas uma página acima no livro, encontrará uma equação com apenas 1 taxa de desconto (a que está dentro do retorno).

Por que então o pseudo-código parece ser diferente? Meu palpite é que estou entendendo mal algo:

\begin{matrix} (13.6) & θ_{t + 1} \dot{=} θ_{t} + α G_{t} \frac{\nabla_{θ} π (A_{t} | S_{t}, θ_{t})}{π (A_{t} | S_{t}, θ_{t})} . \end{matrix}

${\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}$

— Diego Orellana
fonte

5

O fator de desconto aparece duas vezes, e isso está correto.

Isso ocorre porque a função que você está tentando maximizar no REFORÇAR para um problema episódico (tomando o gradiente) é o retorno esperado de um determinado estado de distribuição (de distribuição):

J (θ) = E_{π (θ)} [G_{t} | S_{t} = s_{0}, t = 0]

$J(\theta) = \mathbb{E}_{\pi(\theta)}[G_t|S_t = s_0, t=0]$

$G_1$ $G_2$ $\gamma = 0$

$J(\theta)$ $\gamma^t$

— Neil Slater
fonte

5

$\gamma^t$

Gostaria apenas de esclarecer adicionalmente que você não parece estar entendendo mal nada. A Equação (13.6) do livro é realmente diferente do pseudocódigo .

Agora, não tenho a edição do livro que você mencionou aqui, mas tenho um rascunho posterior de 22 de março de 2018, e o texto sobre esse tópico em particular parece ser semelhante. Nesta edição:

$\gamma = 1$
Essa prova finalmente leva à mesma equação (13.6) na página 329.
$\gamma = 1$
$\gamma < 1$

— Dennis Soemers
fonte

2

Obrigado. A explicação do seu terceiro ponto estava ausente no rascunho de 2017.

— Diego Orellana

2

@DiegoOrellana Não consigo mais encontrar um link para o rascunho de 22 de março; parece haver um rascunho ainda mais tarde (não é possível encontrar uma data mencionada) aqui . Esta versão realmente tem uma capa elegante, portanto pode até ser uma versão final e não um rascunho. Se o link for quebrado no futuro, suspeito que um novo link seja disponibilizado aqui .

— Dennis Soemers

3

É uma questão sutil.

Se você observar o algoritmo A3C no artigo original (p.4 e apêndice S3 para pseudocódigo), o algoritmo ator-crítico (o mesmo algoritmo, tanto problemas episódicos quanto problemas contínuos) é desativado por um fator gama relacionado ao ator. pseudo-código crítico para problemas episódicos no livro de Sutton e Barto (p.332 da edição de janeiro de 2019 de http://incompleteideas.net/book/the-book.html ). O livro de Sutton e Barto possui a gama "primeiro" extra, conforme rotulado na sua foto. Então, o livro ou o documento A3C está errado? Na verdade não.

A chave está na p. 199 do livro de Sutton e Barto:

Se houver desconto (gama <1), ele deve ser tratado como uma forma de rescisão, o que pode ser feito simplesmente incluindo um fator de no segundo período de (9.2).

A questão sutil é que existem duas interpretações para o fator de desconto gama:

Um fator multiplicativo que coloca menos peso em recompensas futuras distantes.
Uma probabilidade, 1-gama, de que uma trajetória simulada termine espúria, a qualquer momento. Essa interpretação só faz sentido para casos episódicos e não para casos contínuos.

Implementações literais:

Apenas multiplique as recompensas futuras e quantidades relacionadas (V ou Q) no futuro por gama.
Simule algumas trajetórias e termine aleatoriamente (1-gama) delas a cada etapa do tempo. Trajetórias encerradas não oferecem recompensas imediatas ou futuras.

$G \nabla\ln\pi(a|s)$

$\gamma^2 G \nabla\ln\pi(a|s)$ $0.81 G \nabla\ln\pi(a|s)$

$G \nabla\ln\pi(a|s)$ $G$

Você pode escolher qualquer interpretação de gama, mas deve estar atento às consequências para o algoritmo. Pessoalmente, prefiro continuar com a interpretação 1 só porque é mais simples. Então, eu uso o algoritmo no documento A3C, não no livro de Sutton e Barto.

Sua pergunta foi sobre o algoritmo REINFORCE, mas eu tenho discutido críticas de atores. Você tem exatamente o mesmo problema relacionado às duas interpretações gama e à gama extra no REINFORCE.

— toto2
fonte