Vejo a seguinte equação em " In Reforcement Learning. An Introduction ", mas não siga a etapa que destaquei em azul abaixo. Como exatamente essa etapa é derivada?
Vejo a seguinte equação em " In Reforcement Learning. An Introduction ", mas não siga a etapa que destaquei em azul abaixo. Como exatamente essa etapa é derivada?
Respostas:
Esta é a resposta para todos que se perguntam sobre a matemática estruturada e limpa por trás dela (ou seja, se você pertence ao grupo de pessoas que sabe o que é uma variável aleatória e que deve mostrar ou presumir que uma variável aleatória tem densidade, então isso é a resposta para você ;-)):
Antes de tudo, precisamos ter em conta que o processo de decisão de Markov possui apenas um número finito de barreiras , ou seja, precisamos que exista um conjunto finito de densidades, cada uma pertencendo a variáveis , ou seja, para todos e um mapa modo que
(ou seja, nos autômatos por trás do MDP, pode haver infinitos estados, mas existem apenas finitamente muitas distribuições de recompensas associadas às transições possivelmente infinitas entre os estados)
Teorema 1 : Seja (isto é, uma variável aleatória real integrável) e deixe ser outra variável aleatória tal que tenha uma densidade comum então
Prova : Essencialmente comprovada aqui por Stefan Hansen.
Teorema 2 : Seja e sejam variáveis aleatórias adicionais, tais que tenham uma densidade comum, então
onde é a gama de .
Prova :
Coloque e coloque então pode-se mostrar (usando o fato de que o MDP possui apenas finitas gavetas ) que G_t converge e que, desde a funçãoainda está em (isto é, integrável), também se pode mostrar (usando a combinação usual dos teoremas da convergência monótona e depois dominar a convergência nas equações definidoras [das fatorações] da expectativa condicional) que
Agora, mostra-se que
O espaço de estados é finito (então e a soma é finita) ou todas as recompensas são todas positivas (então usamos convergência monótona) ou todas as recompensas são negativas (então colocamos um sinal de menos na frente do equação e usar convergência monótona novamente) ou todas as recompensas são limitadas (então usamos convergência dominada). Então (aplicando nos dois lados da equação de Bellman parcial / finita acima) obtemos
e então o resto é a manipulação usual da densidade.
OBSERVAÇÃO: Mesmo em tarefas muito simples, o espaço de estados pode ser infinito! Um exemplo seria a tarefa de "equilibrar um poste". O estado é essencialmente o ângulo do polo (um valor em , um conjunto incontável de infinitos!)
OBSERVAÇÃO: As pessoas podem comentar 'massa, essa prova pode ser reduzida muito mais se você apenas usar a densidade de diretamente e mostrar que '... MAS ... minhas perguntas seriam:
Seja a soma total das recompensas descontadas após o tempo :
O valor da utilidade de iniciar no estado, no momento, é equivalente à soma esperada das
recompensas com desconto da política de execução partir do estado diante.
Por definição de Pela lei da linearidade
Por lei de
Expectativa total
Por definição de Por lei da linearidade
Supondo que o processo satisfaça a Propriedade Markov:
Probabilidade de terminar no estado iniciando no estado e executou a ação ,
e a
recompensa de terminar no estado iniciando no estado e adotando a ação ,
Portanto, podemos reescrever a equação da utilidade acima como,
Onde; : Probabilidade de agir quando em estado para uma política estocástica. Para política determinística,
Aqui está a minha prova. É baseado na manipulação de distribuições condicionais, o que facilita o acompanhamento. Espero que este ajude você.
O que há com a seguinte abordagem?
As somas são introduzidas para recuperar , s ' e r de s . Afinal, as ações possíveis e os próximos estados possíveis podem ser. Com essas condições extras, a linearidade da expectativa leva ao resultado quase diretamente.
Não sei ao certo quão rigoroso é meu argumento matematicamente. Estou aberto a melhorias.
Este é apenas um comentário / adição à resposta aceita.
Fiquei confuso na linha em que a lei da expectativa total está sendo aplicada. Não acho que a principal forma de lei da expectativa total possa ajudar aqui. Uma variante disso é de fato necessária aqui.
Se são variáveis aleatórias e assumindo que toda a expectativa existe, a seguinte identidade é válida:
Neste caso, , e . Então
, que pela propriedade Markov corresponde a
A partir daí, pode-se seguir o restante da prova da resposta.
geralmente denota a expectativa assumindo que o agente segue a políticaπ. Nesse caso,π(a | s)parece não determinístico, ou seja, retorna a probabilidade de o agente executarumaaçãoaquando no estados.
Parece que , inferior a caso, é a substituição de R t + 1 , uma variável aleatória. A segunda expectativa substitui a soma infinita, para refletir a suposição de que continuamos a seguir π para todo t futuro . ∑ s ′ , r r ⋅ p ( s ′ , r | s , a ) é então a recompensa imediata esperada no próximo passo no tempo; A segunda expectativa - que se torna v π - é o valor esperado do próximo estado, ponderado pela probabilidade de liquidação no estado s Tendo tirado a de s .
Assim, a expectativa é responsável pela probabilidade política, bem como pelas funções de transição e recompensa, aqui expressas em conjunto como .
mesmo que a resposta correta já tenha sido dada e já tenha passado algum tempo, pensei que o seguinte guia passo a passo poderia ser útil:
Pela linearidade do Valor Esperado, podemos dividir
em e .
Vou descrever os passos apenas para a primeira parte, pois a segunda parte segue os mesmos passos combinados com a Lei da Expectativa Total.
Whereas (III) follows form:
I know there is already an accepted answer, but I wish to provide a probably more concrete derivation. I would also like to mention that although @Jie Shi trick somewhat makes sense, but it makes me feel very uncomfortable:(. We need to consider the time dimension to make this work. And it is important to note that, the expectation is actually taken over the entire infinite horizon, rather than just over and . Let assume we start from (in fact, the derivation is the same regardless of the starting time; I do not want to contaminate the equations with another subscript )
At this stage, I believe most of us should already have in mind how the above leads to the final expression--we just need to apply sum-product rule() painstakingly.
Let us apply the law of linearity of Expectation to each term inside the
Part 1
Well this is rather trivial, all probabilities disappear (actually sum to 1) except those related to . Therefore, we have
Part 2
Guess what, this part is even more trivial--it only involves rearranging the sequence of summations.
And Eureka!! we recover a recursive pattern in side the big parentheses. Let us combine it with , and we obtain
and part 2 becomes
Part 1 + Part 2
And now if we can tuck in the time dimension and recover the general recursive formulae
Final confession, I laughed when I saw people above mention the use of law of total expectation. So here I am
There are already a great many answers to this question, but most involve few words describing what is going on in the manipulations. I'm going to answer it using way more words, I think. To start,
is defined in equation 3.11 of Sutton and Barto, with a constant discount factor and we can have or , but not both. Since the rewards, , are random variables, so is as it is merely a linear combination of random variables.
That last line follows from the linearity of expectation values. is the reward the agent gains after taking action at time step . For simplicity, I assume that it can take on a finite number of values .
Work on the first term. In words, I need to compute the expectation values of given that we know that the current state is . The formula for this is
In other words the probability of the appearance of reward is conditioned on the state ; different states may have different rewards. This distribution is a marginal distribution of a distribution that also contained the variables and , the action taken at time and the state at time after the action, respectively:
Where I have used , following the book's convention. If that last equality is confusing, forget the sums, suppress the (the probability now looks like a joint probability), use the law of multiplication and finally reintroduce the condition on in all the new terms. It in now easy to see that the first term is
as required. On to the second term, where I assume that is a random variable that takes on a finite number of values . Just like the first term:
Once again, I "un-marginalize" the probability distribution by writing (law of multiplication again)
The last line in there follows from the Markovian property. Remember that is the sum of all the future (discounted) rewards that the agent receives after state . The Markovian property is that the process is memory-less with regards to previous states, actions and rewards. Future actions (and the rewards they reap) depend only on the state in which the action is taken, so , by assumption. Ok, so the second term in the proof is now
as required, once again. Combining the two terms completes the proof
UPDATE
I want to address what might look like a sleight of hand in the derivation of the second term. In the equation marked with , I use a term and then later in the equation marked I claim that doesn't depend on , by arguing the Markovian property. So, you might say that if this is the case, then . But this is not true. I can take because the probability on the left side of that statement says that this is the probability of conditioned on , , , and . Because we either know or assume the state , none of the other conditionals matter, because of the Markovian property. If you do not know or assume the state , then the future rewards (the meaning of ) will depend on which state you begin at, because that will determine (based on the policy) which state you start at when computing .
If that argument doesn't convince you, try to compute what is:
As can be seen in the last line, it is not true that . The expected value of depends on which state you start in (i.e. the identity of ), if you do not know or assume the state .