No aprendizado por reforço, uma política é sempre determinística ou é uma distribuição de probabilidade entre as ações (das quais provamos)? Se a política é determinística, por que não é a função value, definida em um determinado estado para uma determinada política seguinte maneira
uma saída pontual?
Na definição acima, assumimos uma expectativa. Sobre o que é essa expectativa?
Uma política pode levar a rotas diferentes?