Configuração
Estamos considerando no cenário de:
- Ações discretas
- Estados discretos
- Recompensas limitadas
- Política estacionária
- Horizonte infinito
A política óptimo é definido como:
e a função de um valor óptimo é:
V * = max π V π ( s ) , ∀ s ∈ S
Pode haver um conjunto de políticas que atingem o máximo. Mas existe apenas uma função de valor ideal:
V ∗ = V π ∗
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
A questão
Como para demonstrar que existe, pelo menos, um que satisfaz (1) simultaneamente para todos s ∈ S ?π∗s∈S
Esboço da prova
Construa a equação ótima a ser usada como uma definição substituta temporária da função de valor ótimo, o que provaremos na etapa 2 que é equivalente à definição via Eq. (2).
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
Derive a equivalência da definição da função de valor ótimo via Eq. (4) e via Eq. (2).
(Observe que, de fato, precisamos apenas da direção da necessidade na prova, porque a suficiência é óbvia, pois construímos a Eq. (4) da Eq. (2).)
Prove que existe uma solução exclusiva para a Eq. (4).
Na etapa 2, sabemos que a solução obtida na etapa 3 também é uma solução para a Eq. (2), portanto é uma função de valor ideal.
A partir de uma função de valor ideal, podemos recuperar uma política ideal escolhendo a ação maximizadora na Eq. (4) para cada estado.
Detalhes das etapas
1
Como , temos V π ∗ ( s ) ≤ max a ∈ A Q π ∗ ( s , a ) . E se houver qualquer ~ s tais que V π * ≠ max uma ∈V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
Segue o passo 1.
(<=)
V~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Defina o operador Bellman ideal como
TV( s ) = máx.a ∈ A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
So our goal is to prove that if
V~=TV~, then
V~=V∗. We show this by combining two results, following
Puterman[1]:
a) If V~≥TV~, then V~≥V∗.
b) If V~≤TV~, then V~≤V∗.
Proof:
a)
For any π=(d1,d2,...),
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
Here
d is the decision rule(action profile at specific time),
Rd is the vector representation of immediate reward induced from
d and
Pd is transition matrix induced from
d.
By induction, for any n,
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
where
Pjπ represents the
j-step transition matrix under
π.
Since
Vπ=Rd1+∑i=1∞γiPiπRdi+1
we have
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
So we have
V~≥Vπ. And since this holds for any
π, we conclude that
V~≥maxπVπ=V∗
b)
Follows from step 1.
3
The optimal Bellman operator is a contraction in L∞ norm, cf. [2].
Proof:
For any s,
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
where in (*) we used the fact that
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
Thus by Banach fixed point theorum it follows that T has a unique fixed point.
References
[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf