Perguntas com a marcação «stochastic-policy»

2
Uma política é sempre determinística no aprendizado por reforço?
No aprendizado por reforço, uma política é sempre determinística ou é uma distribuição de probabilidade entre as ações (das quais provamos)? Se a política é determinística, por que não é a função value, definida em um determinado estado para uma determinada política seguinte maneiraππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.