Inteligência artificial dqn

Por que o DQN requer duas redes diferentes?

Eu estava passando por essa implementação do DQN e vejo que nas linhas 124 e 125 foram inicializadas duas redes Q diferentes. Pelo meu entendimento, acho que uma rede prediz a ação apropriada e a segunda rede prediz os valores Q de destino para encontrar o erro de Bellman. Por …

12 reinforcement-learning q-learning dqn

Perguntas com a marcação «dqn»