No artigo que apresentou o DQN " Playing Atari with Deep Reforcement Learning ", mencionou:
Observe que, ao aprender pela repetição da experiência, é necessário aprender fora da política (porque nossos parâmetros atuais são diferentes daqueles usados para gerar a amostra), o que motiva a escolha do Q-learning.
Eu não entendi direito o que isso significa. E se usarmos o SARSA e nos lembrarmos da ação a'
que devemos executar s'
em nossa memória, e depois amostrar lotes dele e atualizar o Q como fizemos no DQN? E, os métodos ator-crítico (A3C, para específico) podem usar a repetição da experiência? Se não, por que?
(s, a, r, s')
e desenhe essa experiência para reprodução; Agora, suponha que o meu atual política diz que você deve levara'
ems'
, em seguida, marca queQ(s, a)
deve serr + Q(s', a')
e fazer gradiente descendente. Acho que estou fazendo uma experiência repetindo a política. Há algum problema com o processo?