Derivando a equação de Bellman na aprendizagem por reforço


Respostas:


7

Esta é a resposta para todos que se perguntam sobre a matemática estruturada e limpa por trás dela (ou seja, se você pertence ao grupo de pessoas que sabe o que é uma variável aleatória e que deve mostrar ou presumir que uma variável aleatória tem densidade, então isso é a resposta para você ;-)):

Antes de tudo, precisamos ter em conta que o processo de decisão de Markov possui apenas um número finito deL1 barreiras , ou seja, precisamos que exista um conjunto finito de densidades, cada uma pertencendo a variáveis , ou seja, para todos e um mapa modo que (ou seja, nos autômatos por trás do MDP, pode haver infinitos estados, mas existem apenas finitamente muitas distribuições de recompensas associadas às transições possivelmente infinitas entre os estados)EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Teorema 1 : Seja (isto é, uma variável aleatória real integrável) e deixe ser outra variável aleatória tal que tenha uma densidade comum então XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Prova : Essencialmente comprovada aqui por Stefan Hansen.

Teorema 2 : Seja e sejam variáveis ​​aleatórias adicionais, tais que tenham uma densidade comum, então onde é a gama de .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Prova :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Coloque e coloque então pode-se mostrar (usando o fato de que o MDP possui apenas finitas gavetas ) que G_t converge e que, desde a funçãoainda está em (isto é, integrável), também se pode mostrar (usando a combinação usual dos teoremas da convergência monótona e depois dominar a convergência nas equações definidoras [das fatorações] da expectativa condicional) que Agora, mostra-se que Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
usando , Thm. 2 acima de Thm. 1 em e, em seguida, usando uma guerra de marginalização direta, mostra-se que para todos os . Agora precisamos aplicar o limite a ambos os lados da equação. Para puxar o limite para a integral sobre o espaço de estado , precisamos fazer algumas suposições adicionais:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

O espaço de estados é finito (então e a soma é finita) ou todas as recompensas são todas positivas (então usamos convergência monótona) ou todas as recompensas são negativas (então colocamos um sinal de menos na frente do equação e usar convergência monótona novamente) ou todas as recompensas são limitadas (então usamos convergência dominada). Então (aplicando nos dois lados da equação de Bellman parcial / finita acima) obtemosS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

e então o resto é a manipulação usual da densidade.

OBSERVAÇÃO: Mesmo em tarefas muito simples, o espaço de estados pode ser infinito! Um exemplo seria a tarefa de "equilibrar um poste". O estado é essencialmente o ângulo do polo (um valor em , um conjunto incontável de infinitos!)[0,2π)

OBSERVAÇÃO: As pessoas podem comentar 'massa, essa prova pode ser reduzida muito mais se você apenas usar a densidade de diretamente e mostrar que '... MAS ... minhas perguntas seriam:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. Como é que você sabe que tem uma densidade?Gt+1
  2. Como é que você sabe que tem uma densidade comum junto com ?Gt+1St+1,St
  3. Como você deduz que ? Esta não é apenas a propriedade Markov: a propriedade Markov apenas diz algo sobre as distribuições marginais, mas elas não determinam necessariamente toda a distribuição, veja, por exemplo, gaussianos multivariados!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Seja a soma total das recompensas descontadas após o tempo : t
Gt=Rt+1+γRt+2+γ2Rt+3+...

O valor da utilidade de iniciar no estado, no momento, é equivalente à soma esperada das recompensas com desconto da política de execução partir do estado diante. Por definição de Pela lei da linearidade Por lei dest
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Expectativa total Por definição de Por lei da linearidade
=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Supondo que o processo satisfaça a Propriedade Markov:
Probabilidade de terminar no estado iniciando no estado e executou a ação , e a recompensa de terminar no estado iniciando no estado e adotando a ação , Prssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Portanto, podemos reescrever a equação da utilidade acima como,
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Onde; : Probabilidade de agir quando em estado para uma política estocástica. Para política determinística,π(a|s)asaπ(a|s)=1


Apenas algumas notas: a soma acima de é igual a 1 mesmo em uma política estocástica, mas em uma política determinística, há apenas uma ação que recebe todo o peso (por exemplo, e o restante . recebem 0 peso, por isso esse termo é removido da equação Também na linha que você usou a lei da expectativa total, a ordem dos condtionals é invertidaππ(a|s)=1
Gilad Peleg

1
Tenho certeza de que esta resposta está incorreta: sigamos as equações apenas até a linha que envolve a lei da expectativa total. Então o lado esquerdo não depende de enquanto o lado direito depende ... Ou seja, se as equações estão corretas, então para quais estão corretas? Você deve ter algum tipo de integral sobre já nessa fase. A razão provavelmente é o seu mal-entendido sobre a diferença de (uma variável aleatória) versus sua fatoração (uma função determinística!) ...sssE[X|Y]E[X|Y=y]
Fabian Werner

@FabianWerner Concordo que isso não está correto. A resposta de Jie Shi é a resposta certa.
teucer 9/01

@ resposta Essa resposta pode ser corrigida porque falta apenas "simetrização", isto é, mas ainda assim, a pergunta é a mesma da resposta de Jie Shis: Por que ? Essa não é apenas a propriedade Markov, porque é um RV muito complicado: ele converge mesmo? Se sim, onde? Qual é a densidade comum ? Conhecemos essa expressão apenas para somas finitas (convolução complicada), mas para o caso infinito? E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner

@FabianWerner não tem certeza se posso responder a todas as perguntas. Abaixo alguns indicadores. Para a convergência de , dado que é a soma das recompensas descontadas, é razoável supor que a série converge (o fator de desconto é e para onde converge realmente não importa). Não me preocupo com a densidade (sempre é possível definir uma densidade articular contanto que tenhamos variáveis ​​aleatórias), só importa se estiver bem definida e, nesse caso, estiver. Gt+1<1
teucer 10/01

8

Aqui está a minha prova. É baseado na manipulação de distribuições condicionais, o que facilita o acompanhamento. Espero que este ajude você.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Esta é a famosa equação de Bellman.


Você se importa em explicar este comentário 'Observe que ...' um pouco mais? Por que essas variáveis ​​aleatórias e as variáveis ​​de estado e ação têm uma densidade comum? Se sim, por que você conhece essa propriedade que está usando? Eu posso ver que isso é verdade para uma soma finita, mas se a variável aleatória é um limite ... ??? Gt+1
Fabian Werner

Para Fabian: Primeiro vamos lembrar o que é . . Observe que depende diretamente diretamente de e pois captura todas as informações de transição de um MDP (mais precisamente, é independente de todos os estados, ações e recompensas antes do tempo dado e ). Da mesma forma, depende apenas de e . Como resultado, é independente de ,Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1Rt+3St+2At+2Gt+1StAt, e forneceu , o que explica essa linha. RtSt+1
Jie Shi

Desculpe, isso apenas o 'motiva', na verdade não explica nada. Por exemplo: Qual é a densidade de ? Por que você tem certeza de que ? Por que essas variáveis ​​aleatórias têm uma densidade comum? Você sabe que uma soma se transforma em uma convolução em densidades, então o que ... deve ter uma quantidade infinita de integrais na densidade ??? Não há absolutamente nenhum candidato para a densidade! Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

Para Fabian: Eu não entendi sua pergunta. 1. Você quer a forma exata da distribuição marginal ? Não o conheço e não precisamos disso nesta prova. 2. por que ? Porque, como mencionei anteriormente, e são independentes, dado . 3. O que você quer dizer com "densidade comum"? Você quer dizer distribuição conjunta? Você quer saber por que essas variáveis ​​aleatórias têm uma distribuição conjunta? Todas as variáveis ​​aleatórias neste universo podem ter uma distribuição conjunta. Se essa é sua pergunta, sugiro que você encontre um livro de teoria das probabilidades e o leia. p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi

Vamos passar esta discussão para o chat: chat.stackexchange.com/rooms/88952/bellman-equation
Fabian Werner

2

O que há com a seguinte abordagem?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

As somas são introduzidas para recuperar , s ' e r de s . Afinal, as ações possíveis e os próximos estados possíveis podem ser. Com essas condições extras, a linearidade da expectativa leva ao resultado quase diretamente.asrs

Não sei ao certo quão rigoroso é meu argumento matematicamente. Estou aberto a melhorias.


A última linha funciona apenas devido à propriedade MDP.
teucer

2

Este é apenas um comentário / adição à resposta aceita.

Fiquei confuso na linha em que a lei da expectativa total está sendo aplicada. Não acho que a principal forma de lei da expectativa total possa ajudar aqui. Uma variante disso é de fato necessária aqui.

Se X,Y,Z são variáveis ​​aleatórias e assumindo que toda a expectativa existe, a seguinte identidade é válida:

E[X|Y]=E[E[X|Y,Z]|Y]

Neste caso, X=Gt+1 , Y=St e Z=St+1 . Então

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , que pela propriedade Markov corresponde aE[E[Gt+1|St+1=s]|St=s]

A partir daí, pode-se seguir o restante da prova da resposta.


1
Bem-vindo ao CV! Por favor, use as respostas apenas para responder à pergunta. Depois de ter reputação suficiente (50), você pode adicionar comentários.
Frans Rodenburg 28/09

Obrigado. Sim, como não pude comentar por não ter reputação suficiente, achei útil adicionar a explicação às respostas. Mas vou manter isso em mente.
Mehdi Golari 28/09

Voto a favor, mas ainda assim, esta resposta está faltando detalhes: Mesmo se satisfaz esse relacionamento louco, então ninguém garante que isso também seja verdade para as fatorações das expectativas condicionais! Ou seja, como no caso da resposta de Ntabgoba: O lado esquerdo não depende de s enquanto o lado direito depende . Esta equação não pode estar correta! E[X|Y]s
Fabian Werner

1

geralmente denota a expectativa assumindo que o agente segue a políticaπ. Nesse caso,π(a | s)parece não determinístico, ou seja, retorna a probabilidade de o agente executarumaaçãoaquando no estados.Eπ()ππ(a|s)as

Parece que , inferior a caso, é a substituição de R t + 1 , uma variável aleatória. A segunda expectativa substitui a soma infinita, para refletir a suposição de que continuamos a seguir π para todo t futuro . s , r r p ( s , r | s , a ) é então a recompensa imediata esperada no próximo passo no tempo; A segunda expectativa - que se torna v π - é o valor esperado do próximo estado, ponderado pela probabilidade de liquidação no estado srRt+1πts,rrp(s,r|s,a)vπ Tendo tirado a de s .sas

Assim, a expectativa é responsável pela probabilidade política, bem como pelas funções de transição e recompensa, aqui expressas em conjunto como .p(s,r|s,a)


Obrigado. Sim, o que você mencionou sobre está correto (é a probabilidade do agente executar uma ação a quando no estado s ). π(a|s)as
Amelio Vazquez-Reina

O que não sigo é quais termos são expandidos exatamente para quais termos na segunda etapa (eu estou familiarizado com a fatoração e a marginalização da probabilidade, mas não tanto com a RL). É o termo que está sendo expandida? Ou seja, o que exatamente no passo anterior é igual ao que exatamente no próximo passo? Rt
Amelio Vazquez-Reina

1
Parece que , minúsculas, está substituindo R t + 1 , uma variável aleatória, e o segundo expectativa substitui a soma infinita (provavelmente para refletir a suposição de que continuamos a seguir π para todas as futuras t ). Σ p ( s , r | s , a ) r é então a recompensa imediata esperada no próximo passo no tempo e a segunda expectativa - que se torna v π - é o valor esperado do próximo estado, ponderado pela probabilidade de enrolamento -se no estado s ' ter tomadorRt+1πtΣp(s,r|s,a)rvπs de s . as
31519 Easter Sean

1

mesmo que a resposta correta já tenha sido dada e já tenha passado algum tempo, pensei que o seguinte guia passo a passo poderia ser útil:
Pela linearidade do Valor Esperado, podemos dividir E[Rt+1+γE[Gt+1|St=s]] em E[Rt+1|St=s] e γE[Gt+1|St=s] .
Vou descrever os passos apenas para a primeira parte, pois a segunda parte segue os mesmos passos combinados com a Lei da Expectativa Total.

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Whereas (III) follows form:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

I know there is already an accepted answer, but I wish to provide a probably more concrete derivation. I would also like to mention that although @Jie Shi trick somewhat makes sense, but it makes me feel very uncomfortable:(. We need to consider the time dimension to make this work. And it is important to note that, the expectation is actually taken over the entire infinite horizon, rather than just over s and s. Let assume we start from t=0 (in fact, the derivation is the same regardless of the starting time; I do not want to contaminate the equations with another subscript k)

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
NOTED THAT THE ABOVE EQUATION HOLDS EVEN IF T, IN FACT IT WILL BE TRUE UNTIL THE END OF UNIVERSE (maybe be a bit exaggerated :) )
At this stage, I believe most of us should already have in mind how the above leads to the final expression--we just need to apply sum-product rule(abcabcaabbcc) painstakingly. Let us apply the law of linearity of Expectation to each term inside the (r1+γt=0T2γtrt+2)

Part 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Well this is rather trivial, all probabilities disappear (actually sum to 1) except those related to r1. Therefore, we have

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Part 2
Guess what, this part is even more trivial--it only involves rearranging the sequence of summations.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

And Eureka!! we recover a recursive pattern in side the big parentheses. Let us combine it with γt=0T2γtrt+2, and we obtain vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

and part 2 becomes
a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Part 1 + Part 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

And now if we can tuck in the time dimension and recover the general recursive formulae

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Final confession, I laughed when I saw people above mention the use of law of total expectation. So here I am


Erm... what is the symbol 'a0,...,a' supposed to mean? There is no a...
Fabian Werner

Another question: Why is the very first equation true? I know E[f(X)|Y=y]=Xf(x)p(x|y)dx but in our case, X would be an infinite sequence of random variables (R0,R1,R2,........) so we would need to compute the density of this variable (consisting of an infinite amount of variables of which we know the density) together with something else (namely the state)... how exactly do you du that? I.e. what is p(r0,r1,....)?
Fabian Werner

@FabianWerner. Take a deep breath to calm your brain first:). Let me answer your first question. a0,...,aa0a1,...,a. If you recall the definition of the value function, it is actually a summation of discounted future rewards. If we consider an infinite horizon for our future rewards, we then need to sum infinite number of times. A reward is result of taking an action from a state, since there is an infinite number of rewards, there should be an infinite number of actions, hence a.
Karlsson Yu

1
let us assume that I agree that there is some weird a (which I still doubt, usually, students in the very first semester in math tend to confuse the limit with some construction that actually involves an infinite element)... I still have one simple question: how is “a1...a defined? I know what this expression is supposed to mean with a finite amount of sums... but infinitely many of them? What do you understand that this expression does?
Fabian Werner

1
internet. Could you refer me to a page or any place that defines your expression? If not then you actually defined something new and there is no point in discussing that because it is just a symbol that you made up (but there is no meaning behind it)... you agree that we are only able to discuss about the symbol if we both know what it means, right? So, I do not know what it means, please explain...
Fabian Werner

1

There are already a great many answers to this question, but most involve few words describing what is going on in the manipulations. I'm going to answer it using way more words, I think. To start,

Gtk=t+1Tγkt1Rk

is defined in equation 3.11 of Sutton and Barto, with a constant discount factor 0γ1 and we can have T= or γ=1, but not both. Since the rewards, Rk, are random variables, so is Gt as it is merely a linear combination of random variables.

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

That last line follows from the linearity of expectation values. Rt+1 is the reward the agent gains after taking action at time step t. For simplicity, I assume that it can take on a finite number of values rR.

Work on the first term. In words, I need to compute the expectation values of Rt+1 given that we know that the current state is s. The formula for this is

Eπ[Rt+1|St=s]=rRrp(r|s).

In other words the probability of the appearance of reward r is conditioned on the state s; different states may have different rewards. This p(r|s) distribution is a marginal distribution of a distribution that also contained the variables a and s, the action taken at time t and the state at time t+1 after the action, respectively:

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Where I have used π(a|s)p(a|s), following the book's convention. If that last equality is confusing, forget the sums, suppress the s (the probability now looks like a joint probability), use the law of multiplication and finally reintroduce the condition on s in all the new terms. It in now easy to see that the first term is

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

as required. On to the second term, where I assume that Gt+1 is a random variable that takes on a finite number of values gΓ. Just like the first term:

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Once again, I "un-marginalize" the probability distribution by writing (law of multiplication again)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

The last line in there follows from the Markovian property. Remember that Gt+1 is the sum of all the future (discounted) rewards that the agent receives after state s. The Markovian property is that the process is memory-less with regards to previous states, actions and rewards. Future actions (and the rewards they reap) depend only on the state in which the action is taken, so p(g|s,r,a,s)=p(g|s), by assumption. Ok, so the second term in the proof is now

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

as required, once again. Combining the two terms completes the proof

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

UPDATE

I want to address what might look like a sleight of hand in the derivation of the second term. In the equation marked with (), I use a term p(g|s) and then later in the equation marked () I claim that g doesn't depend on s, by arguing the Markovian property. So, you might say that if this is the case, then p(g|s)=p(g). But this is not true. I can take p(g|s,r,a,s)p(g|s) because the probability on the left side of that statement says that this is the probability of g conditioned on s, a, r, and s. Because we either know or assume the state s, none of the other conditionals matter, because of the Markovian property. If you do not know or assume the state s, then the future rewards (the meaning of g) will depend on which state you begin at, because that will determine (based on the policy) which state s you start at when computing g.

If that argument doesn't convince you, try to compute what p(g) is:

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

As can be seen in the last line, it is not true that p(g|s)=p(g). The expected value of g depends on which state you start in (i.e. the identity of s), if you do not know or assume the state s.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.