Depois de ler as conquistas do google deepmind nos jogos da Atari , estou tentando entender o q-learning e q-networks, mas estou um pouco confuso. A confusão surge no conceito do fator de desconto. Breve resumo do que eu entendo. Uma rede neural profunda convolucional é usada para estimar o valor do valor esperado ideal de uma ação. A rede precisa minimizar a função de perda onde é Onde é um valor acumulado da pontuaçãoE s ′ [ y | s , a ] E [ r + γ m a x a ′ Q ( s ′ , a ′
Do ponto de vista matemático é o fator de desconto e representa a probabilidade de atingir o estado do Estado .s ′ s
Eu acho que a rede realmente aprendeu a redimensionar o acordo com o verdadeiro valor de , então por que não deixar ?γ γ = 1