A política ideal é sempre estocástica (ou seja, um mapa dos estados para uma distribuição de probabilidade sobre as ações) se o ambiente também é estocástico?
Não.
Uma política ideal é geralmente determinística, a menos que:
Faltam informações importantes sobre o estado (um POMDP). Por exemplo, em um mapa em que o agente não tem permissão para saber sua localização exata ou lembrar de estados anteriores, e o estado fornecido não é suficiente para desambiguar entre os locais. Se o objetivo é chegar a um local final específico, a política ideal pode incluir alguns movimentos aleatórios para evitar ficar preso. Observe que o ambiente nesse caso pode ser determinístico (da perspectiva de alguém que pode ver todo o estado), mas ainda leva a exigir uma política estocástica para resolvê-lo.
Existe algum tipo de cenário da teoria dos jogos minimax, em que uma política determinística pode ser punida pelo ambiente ou por outro agente. Pense em tesoura / papel / pedra ou dilema do prisioneiro.
Intuitivamente, se o ambiente for determinístico (ou seja, se o agente estiver em um estado 𝑠 e tomar uma ação 𝑎, o próximo estado always ′ será sempre o mesmo, independentemente do intervalo de tempo), a política ideal também deverá ser determinística (isto é, deve ser um mapa de estados para ações, e não para uma distribuição de probabilidade sobre ações).
Isso parece razoável, mas você pode levar essa intuição adiante com qualquer método baseado em uma função de valor:
Se você encontrou uma função de valor ideal, agir com avidez em relação a ela é a política ideal.
A afirmação acima é apenas uma afirmação em linguagem natural da equação de otimização de Bellman:
v∗(s)=maxa∑r,s′p(r,s′|s,a)(r+γv∗(s′))
ou seja, os valores ideais são obtidos ao escolher sempre a ação que maximiza a recompensa mais o valor descontado da próxima etapa. O maxa operação é determinista (se necessário você pode quebrar os laços para o valor máximo deterministically com, por exemplo, uma lista ordenada de ações).
Portanto, qualquer ambiente que possa ser modelado por um MDP e resolvido por um método baseado em valor (por exemplo, iteração de valor, Q-learning) possui uma política ótima que é determinística.
É possível em tal ambiente que a solução ótima não seja estocástica (ou seja, se você adicionar alguma aleatoriedade à política ideal determinística, a política se tornará estritamente pior). No entanto, quando existem vínculos para o valor máximo de uma ou mais ações em um ou mais estados, existem várias políticas ótimas e determinísticas equivalentes. Você pode construir uma política estocástica que as misture em qualquer combinação e também será ideal.