2
Por que o Q Learning diverge?
Os valores de estado do meu algoritmo Q-Learning continuam divergindo até o infinito, o que significa que meus pesos também estão divergindo. Eu uso uma rede neural para meu mapeamento de valores. Eu tentei: Recorte do "valor da ação recompensa + desconto * máximo" (máximo / min definido como 50 …