É uma questão sutil.
Se você observar o algoritmo A3C no artigo original (p.4 e apêndice S3 para pseudocódigo), o algoritmo ator-crítico (o mesmo algoritmo, tanto problemas episódicos quanto problemas contínuos) é desativado por um fator gama relacionado ao ator. pseudo-código crítico para problemas episódicos no livro de Sutton e Barto (p.332 da edição de janeiro de 2019 de http://incompleteideas.net/book/the-book.html ). O livro de Sutton e Barto possui a gama "primeiro" extra, conforme rotulado na sua foto. Então, o livro ou o documento A3C está errado? Na verdade não.
A chave está na p. 199 do livro de Sutton e Barto:
Se houver desconto (gama <1), ele deve ser tratado como uma forma de rescisão, o que pode ser feito simplesmente incluindo um fator de no segundo período de (9.2).
A questão sutil é que existem duas interpretações para o fator de desconto gama:
- Um fator multiplicativo que coloca menos peso em recompensas futuras distantes.
- Uma probabilidade, 1-gama, de que uma trajetória simulada termine espúria, a qualquer momento. Essa interpretação só faz sentido para casos episódicos e não para casos contínuos.
Implementações literais:
- Apenas multiplique as recompensas futuras e quantidades relacionadas (V ou Q) no futuro por gama.
- Simule algumas trajetórias e termine aleatoriamente (1-gama) delas a cada etapa do tempo. Trajetórias encerradas não oferecem recompensas imediatas ou futuras.
G∇lnπ(a|s)
γ2G∇lnπ(a|s)0.81G∇lnπ(a|s)
G∇lnπ(a|s)G
Você pode escolher qualquer interpretação de gama, mas deve estar atento às consequências para o algoritmo. Pessoalmente, prefiro continuar com a interpretação 1 só porque é mais simples. Então, eu uso o algoritmo no documento A3C, não no livro de Sutton e Barto.
Sua pergunta foi sobre o algoritmo REINFORCE, mas eu tenho discutido críticas de atores. Você tem exatamente o mesmo problema relacionado às duas interpretações gama e à gama extra no REINFORCE.