Uma política é sempre determinística no aprendizado por reforço?

No aprendizado por reforço, uma política é sempre determinística ou é uma distribuição de probabilidade entre as ações (das quais provamos)? Se a política é determinística, por que não é a função value, definida em um determinado estado para uma determinada política seguinte maneira $\pi$

V^{π} (s) = E [\sum_{t > 0} γ^{t} r_{t} | s_{0} = s, π]

$V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right]$

uma saída pontual?

Na definição acima, assumimos uma expectativa. Sobre o que é essa expectativa?

Uma política pode levar a rotas diferentes?

reinforcement-learning deterministic-policy stochastic-policy

— MiloMinderbinder
fonte

Uma pergunta relacionada no StackOverflow: stackoverflow.com/q/46260775/712995

— Maxim

Existem várias perguntas aqui: 1. Uma política é sempre determinística? 2. Se a política é determinística, o valor também não deve ser determinístico? 3. Qual é a expectativa na estimativa da função de valor? Sua última pergunta não é muito clara "Uma política pode levar a rotas com valores atuais diferentes?" mas acho que você quer dizer: 4. Uma política pode levar a rotas diferentes?

Uma política é uma função que pode ser determinística ou estocástica. Ele determina que ação tomar, dado um determinado estado. A distribuição é usada para uma política estocástica e uma função de mapeamento é usada para uma política determinística, onde é o conjunto de estados possíveis e é o conjunto de ações possíveis . $\pi(a\mid s)$ $\pi:S \rightarrow A$ $S$ $A$
A função de valor não é determinística. O valor (de um estado) é a recompensa esperada se você começar nesse estado e continuar a seguir uma política. Mesmo que a política seja determinística, a função de recompensa e o ambiente podem não ser.
A expectativa nessa fórmula é sobre todas as rotas possíveis a partir do estado . Geralmente, as rotas ou caminhos são decompostos em várias etapas, usadas para treinar estimadores de valor. Essas etapas podem ser representadas pela tupla (estado, ação, recompensa, próximo estado) $s$ $(s,a,r,s')$
Isso está relacionado à resposta 2, a política pode levar a caminhos diferentes (mesmo uma política determinística) porque o ambiente geralmente não é determinístico.

— DE ANÚNCIOS
fonte

você pode me dar um exemplo de ambiente não sendo determinístico? a meu ver, se o agente aplicar a ação a um ambiente no estado , ele deterministicamente muda o ambiente para

a

$a$

s

$s$

s^{‘}

$s^`$

— 315 MiloMinderbinder

Um exemplo clássico é um robô que faz movimentos à esquerda em um passo (ação), mas a superfície é escorregadia (caminhando no gelo) e, na verdade, se move 2 passos à esquerda. De fato, esses ambientes são a norma e são amplamente estudados. Meu exemplo é, na verdade, um ambiente de "brinquedo" tão conhecido: gym.openai.com/envs/FrozenLake-v0

— AD

assim estado e acção sobre ela conduz a uma dist prov sobre . eu entendi direito?

s

$s$

a

$a$

s^{‘}

$s^`$

— MiloMinderbinder

Sim, assim como é estocástico, também é estocástico.

p (a ∣ s)

$p(a\mid s)$

p (s^{'} ∣ s, a)

$p(s' \mid s, a)$

— AD

apenas mais duas coisas: 1. é estocástico apenas na política estocástica, certo? 2. Você pode confirmar que a outra resposta postada está errada sobre o que a expectativa é tomada em parte, para que eu possa aceitar sua resposta?

p (a | s)

$p(a|s)$

— MiloMinderbinder

A política pode ser estocástica ou determinística. A expectativa é de mais exemplos de treinamento, dadas as condições. A função value é uma estimativa do retorno, e é por isso que é uma expectativa.

— Neil G
fonte