Qual é a função Q e qual é a função V no aprendizado por reforço?

30

Parece-me que a função pode ser facilmente expressa pela função e, portanto, a função parece ser supérflua para mim. No entanto, eu sou novo no aprendizado por reforço, então acho que entendi algo errado. $V$ $Q$ $V$

Definições

O aprendizado de Q e V está no contexto dos processos de decisão de Markov . Um MDP é uma tupla de 5 tuplas com $(S, A, P, R, \gamma)$

$S$ é um conjunto de estados (normalmente finito)
$A$ é um conjunto de ações (geralmente finitas)
$P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)$ é a probabilidade de passar do estado para o estado com a ação . $s$ $s'$ $a$
$R(s, s', a) \in \mathbb{R}$ é a recompensa imediata após passar do estado para o estado com a ação . (Parece-me que normalmente só assuntos). $s$ $s'$ $a$ $s'$
$\gamma \in [0, 1]$ é chamado fator de desconto e determina se alguém se concentra em recompensas imediatas ( ), na recompensa total ( ) ou em alguma troca. $\gamma = 0$ $\gamma = 1$

Uma política $\pi$ , de acordo com Aprendizagem por Reforço: Uma Introdução por Sutton e Barto, é uma função (isso pode ser probabilístico). $\pi: S \rightarrow A$

De acordo com slides de Mario Martins , a função é e a função Q é $V$

V^{π} (s) = E_{π} {R_{t} | s_{t} = s} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s}

$V^\pi(s) = E_\pi \{R_t | s_t = s\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s\}$

Q^{π} (s, a) = E_{π} {R_{t} | s_{t} = s, a_{t} = a} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{R_t | s_t = s, a_t = a\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s, a_t=a\}$

Meus pensamentos

Os função estados que o valor total esperado (não recompensa!) De um estado no âmbito da política é. $V$ $s$ $\pi$

Os função estados qual é o valor de um estado e uma ação no âmbito da política é. $Q$ $s$ $a$ $\pi$

Isso significa que

Q^{π} (s, π (s)) = V^{π} (s)

$Q^\pi(s, \pi(s)) = V^\pi(s)$

Direita? Então, por que temos a função de valor? (Eu acho que misturei alguma coisa)

machine-learning reinforcement-learning

— Martin Thoma
fonte

15

Os valores Q são uma ótima maneira de explicitar as ações, para que você possa lidar com problemas em que a função de transição não está disponível (sem modelo). No entanto, quando seu espaço de ação é grande, as coisas não são tão agradáveis e os valores Q não são tão convenientes. Pense em um grande número de ações ou mesmo em espaços de ação contínuos.

De uma perspectiva de amostragem, a dimensionalidade de é maior que portanto, pode ser mais difícil obter amostras suficientes em comparação com . Se você tiver acesso à função de transição, às vezes é bom. $Q(s, a)$ $V(s)$ $(s, a)$ $(s)$ $V$

Existem também outros usos em que ambos são combinados. Por exemplo, a função de vantagem em que . Se você estiver interessado, poderá encontrar um exemplo recente usando as funções de vantagem aqui: $A(s, a) = Q(s, a) - V(s)$

Arquiteturas de rede de duelo para aprendizado profundo de reforço

por Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot e Nando de Freitas.

— Juan Leni
fonte

19

$V^\pi(s)$ é a função de valor de estado do MDP (Processo de Decisão de Markov). É o retorno esperado a partir de estado seguinte política . $s$ $\pi$

Na expressão

V^{π} (s) = E_{π} {G_{t} | s_{t} = s}

$V^\pi(s) = E_\pi \{G_t | s_t = s\}$

$G_t$ é a recompensa total com desconto do passo , em oposição a que é um retorno imediato. Aqui você está assumindo a expectativa de TODAS as ações de acordo com a política . $t$ $R_t$ $\pi$

$Q^\pi(s, a)$ é a função de valor da ação. É o retorno esperado a partir do estado , seguindo a política , a ação . Está se concentrando na ação em particular no estado em particular. $s$ $\pi$ $a$

Q^{π} (s, a) = E_{π} {G_{t} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{G_t | s_t = s, a_t = a\}$

A relação entre e (o valor de estar nesse estado) é $Q^\pi$ $V^\pi$

V^{π} (s) = \sum_{a \in A} π (a | s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$

Você soma cada valor de ação multiplicado pela probabilidade de executar essa ação (a política ). $\pi(a|s)$

Se você pensar no exemplo do mundo da grade, multiplique a probabilidade de (cima / baixo / direita / esquerda) pelo valor do estado um passo à frente de (cima / baixo / direita / esquerda).

— Aaron
fonte

5

Esta é a resposta mais concisa.

— Brett

Eu tenho uma fonte que afirma que . Como você relaciona essa equação à que você fornece em sua resposta, ? Na sua equação, você está definindo em termos de uma soma ponderada dos valores deIsso é diferente da definição que tenho, que define como o mais alto .

V^{π} (s) = max_{a \in A} Q^{π} (s, a)

$V^\pi(s) = \max_{a \in A} Q^\pi(s, a)$

V^{π} (s) = \sum_{a \in A} π (a ∣ s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a \in A} \pi (a \mid s) * Q^\pi(a, s)$

V

$V$

Q

$Q$

V

$V$

Q

$Q$

— nbro

@ Nbro Eu acredito que depende de que tipo de política você está seguindo. Em uma política pura e gananciosa, você está correto. Mas se fosse uma política mais exploratória, criada para decidir

— estocamente

7

Você está certo, a função fornece o valor de um estado e fornece o valor de uma ação em um estado (seguindo uma determinada política ). Encontrei a explicação mais clara do Q-learning e como ele funciona no livro de Tom Mitchell "Machine Learning" (1997), cap. 13, que pode ser baixado. é definido como a soma de uma série infinita, mas não é importante aqui. O que importa é a função é definida como $V$ $Q$ $\pi$ $V$ $Q$

Q (s, a) = r (s, a) + γ V^{*} (δ (s, a))

$Q(s,a ) = r(s,a ) + \gamma V^{*}(\delta(s,a))$ que V * é o melhor valor de um estado se você puder seguir uma política ótima que não usa sei. No entanto, possui uma boa caracterização em termos de computação é feita substituindo-se na primeira equação para fornecer

Q

$Q$

V^{*} (s) = max_{a^{'}} Q (s, a^{'})

$V^{*}(s)= \max_{a'} Q(s,a')$

Q

$Q$

V^{*}

$V^*$

Q (s, a) = r (s, a) + γ max_{a^{'}} Q (δ (s, a), a^{'})

$Q(s, a) = r(s, a) + \gamma \max_{a'} Q(\delta(s, a), a')$

Isso pode parecer uma recursão ímpar no início porque está expressando o valor Q de uma ação no estado atual em termos do melhor valor Q de um estado sucessor , mas faz sentido quando você olha como o processo de backup a usa: A exploração o processo para quando atinge um estado de objetivo e coleta a recompensa, que se torna o valor Q da transição final. Agora, em um episódio de treinamento subsequente, quando o processo de exploração atingir esse estado predecessor, o processo de backup usa a igualdade acima para atualizar o valor Q atual do estado predecessor. Da próxima vez que o seuQuando o predecessor é visitado, o valor Q do estado é atualizado e assim por diante (o livro de Mitchell descreve uma maneira mais eficiente de fazer isso armazenando todos os cálculos e reproduzindo-os posteriormente). Desde que todos os estados sejam visitados infinitamente, esse processo eventualmente calcula o Q ideal

Às vezes, você verá uma taxa de aprendizado aplicada para controlar quanto Q realmente é atualizado: Observe agora que a atualização para o valor Q que dependem do valor Q atual. O livro de Mitchell também explica por que isso é e por que você precisa : é para MDPs estocásticos. Sem , toda vez que um estado, um par de ações fosse tentado, haveria uma recompensa diferente; portanto, a função Q ^ saltaria por todo o lugar e não convergiria. existe para que, como o novo conhecimento seja aceito apenas em parte. $\alpha$

Q (s, a) = (1 - α) Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}))

$Q(s, a) = (1-\alpha)Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a'))$

= Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$= Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a') - Q(s,a))$

α

$\alpha$

α

$\alpha$

α

$\alpha$

α

$\alpha$ é definido alto para que os atuais (principalmente valores aleatórios) de Q sejam menos influentes. diminui à medida que o treinamento avança, para que novas atualizações tenham cada vez menos influência, e agora o aprendizado Q converge

α

$\alpha$

— SN
fonte

0

Aqui está uma explicação mais detalhada da relação entre valor do estado e valor da ação na resposta de Aaron. Vamos primeiro dar uma olhada nas definições de função de valor e função de valor de ação em política : onde é o retorno no tempo . O relacionamento entre essas duas funções de valor pode ser derivado como $\pi$

\begin{aligned} v_{π} (s) = E [G_{t} | S_{t} = s] \\ q_{π} (s, a) = E [G_{t} | S_{t} = s, A_{t} = a] \end{aligned}

$\begin{align} &v_{\pi}(s)=E{\left[G_t|S_t=s\right]} \\ &q_{\pi}(s,a)=E{\left[G_t|S_t=s, A_t=a\right]} \end{align}$

G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}

$G_t=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

t

$t$

\begin{aligned} v_{π} (s) & = E [G_{t} | S_{t} = s] \\ = \sum_{g_{t}} p (g_{t} | S_{t} = s) g_{t} \\ = \sum_{g_{t}} \sum_{a} p (g_{t}, a | S_{t} = s) g_{t} \\ = \sum_{a} p (a | S_{t} = s) \sum_{g_{t}} p (g_{t} | S_{t} = s, A_{t} = a) g_{t} \\ = \sum_{a} p (a | S_{t} = s) E [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} p (a | S_{t} = s) q_{π} (s, a) \end{aligned}

$\begin{align} v_{\pi}(s)&=E{\left[G_t|S_t=s\right]} \nonumber \\ &=\sum_{g_t} p(g_t|S_t=s)g_t \nonumber \\ &= \sum_{g_t}\sum_{a}p(g_t, a|S_t=s)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)\sum_{g_t}p(g_t|S_t=s, A_t=a)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)E{\left[G_t|S_t=s, A_t=a\right]} \nonumber \\ &= \sum_{a}p(a|S_t=s)q_{\pi}(s,a) \end{align}$ A equação acima é importante. Descreve a relação entre duas funções fundamentais de valor no aprendizado por reforço. É válido para qualquer política. Além disso, se tivermos uma política determinística , então . Espero que isso seja útil para você. (para saber mais sobre a equação de otimização de Bellman https: //stats.stackexchange.

v_{π} (s) = q_{π} (s, π (s))

$v_{\pi}(s)=q_{\pi}(s,\pi(s))$ )

— Jie Shi
fonte

0

A função value é uma formulação abstrata de utilidade. E a função Q é usada para o algoritmo Q-learning.

— Emmanuel
fonte

Para o contexto desta pergunta, e são diferentes.

V

$V$

Q

$Q$

— Siong Thye Goh