Inteligência artificial q-learning

1

Qual é a relação entre os métodos Q-learning e gradientes de políticas?

Tanto quanto eu entendo, Q-learning e gradientes de políticas (PG) são as duas principais abordagens usadas para resolver problemas de RL. Enquanto o Q-learning visa predizer a recompensa de uma determinada ação executada em um determinado estado, os gradientes das políticas predizem diretamente a própria ação. No entanto, ambas as …

21 reinforcement-learning q-learning policy-gradients comparison

1

Por que o DQN requer duas redes diferentes?

Eu estava passando por essa implementação do DQN e vejo que nas linhas 124 e 125 foram inicializadas duas redes Q diferentes. Pelo meu entendimento, acho que uma rede prediz a ação apropriada e a segunda rede prediz os valores Q de destino para encontrar o erro de Bellman. Por …

12 reinforcement-learning q-learning dqn

2

Por que o Q-learning não converge ao usar a aproximação de função?

É garantido que o algoritmo tabular de aprendizado de Q encontre a função QQQ ideal , Q∗Q∗Q^* , desde que sejam satisfeitas as seguintes condições (condições de Robbins-Monro ) em relação à taxa de aprendizado ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty onde αt(s,a)αt(s,a)\alpha_t(s, a) significa que …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

Perguntas com a marcação «q-learning»