Inteligência artificial rl-an-introduction

Por que a taxa de desconto no algoritmo REINFORCE aparece duas vezes?

Eu estava lendo o livro Reinforcement Learning: An Introduction, de Richard S. Sutton e Andrew G. Barto (rascunho completo, 5 de novembro de 2017). Na página 271, é apresentado o pseudocódigo do método episódico de política de gradiente de Monte-Carlo. Olhando para esse pseudocódigo, não consigo entender por que parece …

11 reinforcement-learning algorithm rl-an-introduction reinforce

Perguntas com a marcação «rl-an-introduction»