O significado do fator de desconto na aprendizagem por reforço

Depois de ler as conquistas do google deepmind nos jogos da Atari , estou tentando entender o q-learning e q-networks, mas estou um pouco confuso. A confusão surge no conceito do fator de desconto. Breve resumo do que eu entendo. Uma rede neural profunda convolucional é usada para estimar o valor do valor esperado ideal de uma ação. A rede precisa minimizar a função de perda onde é Onde é um valor acumulado da pontuação

L_{i} = E_{s, a, r} [(E_{s^{'}} [y | s, a] - Q (s, a; θ_{i}))^{2}]

$L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right]$

E_{s^{'}} [y | s, a]

$\mathbb{E}_{s'}\left[y|s,a\right]$

E [r + γ m a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}^{-}) | s, a]

$\mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a]$

Q

$Q$

r

$r$ é o valor da pontuação para a ação escolhida. e são respectivamente o estado e a ação escolhidos no momento o estado e a ação no momento . Os são os pesos da rede na iteração anterior. O é um fator de desconto que leva em consideração a diferença temporal dos valores da pontuação. O subscrito é o passo temporal. O problema aqui é entender por que não depende de .

s, a

$s,a$

s^{'}, a^{'}

$s',a'$

t

$t$

t^{'}

$t'$

θ_{i}^{-}

$\theta^-_i$

γ

$\gamma$

i

$i$

γ

$\gamma$

θ

$\theta$

Do ponto de vista matemático é o fator de desconto e representa a probabilidade de atingir o estado do Estado . $\gamma$ $s'$ $s$

Eu acho que a rede realmente aprendeu a redimensionar o acordo com o verdadeiro valor de , então por que não deixar ? $Q$ $\gamma$ $\gamma=1$

artificial-intelligence neural-networks reinforcement-learning

— emanuele
fonte

O fator de desconto não representa a probabilidade de atingir o estado partir do estado . Isso seria , que não é usado no Q-Learning, pois é livre de modelo (somente os métodos de aprendizado por reforço baseados em modelo usam essas probabilidades de transição). O fator de desconto é um hiperparâmetro ajustado pelo usuário que representa quanto eventos futuros perdem seu valor de acordo com a distância que estão no tempo. Na fórmula mencionada, você está dizendo que o valor para o seu estado atual é a recompensa instantânea para esse estado mais o que você espera receber no futuro a partir de $s′$ $s$ $p(s'|s,a)$ $γ$ $y$ $s$ $s$ . Mas esse prazo futuro deve ser descontado, porque as recompensas futuras podem não ter (se ) o mesmo valor que receber uma recompensa agora (assim como preferimos receber US $ 100 agora em vez de US $ 100 amanhã). Cabe a você escolher o quanto deseja depreciar suas recompensas futuras (isso depende do problema). Um fator de desconto 0 significa que você se preocupa apenas com recompensas imediatas. Quanto maior o seu fator de desconto, mais suas recompensas serão propagadas ao longo do tempo. $γ < 1$

Sugiro que você leia o livro de Sutton & Barto antes de experimentar o Deep-Q para aprender o Aprendizado de Reforço puro fora do contexto das redes neurais, o que pode estar confundindo você.

— rcpinto
fonte

Agradecemos sua resposta, mas ainda tenho algumas dúvidas. Eu estou pensando alto. Imagine a cada passo que você recebe uma pontuação e você tem que pagar para começar a jogar. Como calculo o valor esperado? Bem, porque você está adicionando valores de em momentos diferentes no futuro, não é?

d

$d$

c

$c$

E v = \sum_{i = 1}^{+ \infty} γ^{i} d - c

$Ev=\sum_{i=1}^{+\infty} \gamma^i d -c$

d

$d$

— Emanuele

Bem, vou quebrar mesmo que qual é o valor correto para ? O valor correto para é o valor que me permite trocar entre as recompensas presente e futura e é . é a probabilidade de sobreviver na etapa é por isso que . A verificação é onde têm chances de sobreviver a cada passo e é o tempo de vida esperado.

d \frac{γ}{1 - γ} = c

$d\frac{\gamma}{1-\gamma}=c$

γ

$\gamma$

g a m m a

$gamma$

γ = p

$\gamma=p$

p

$p$

t

$t$

0 \leq γ \leq 1

$0\le \gamma \le 1$

\frac{p}{1 - p} = τ

$\frac{p}{1-p}=\tau$

τ

$\tau$

— Emanuele