A política ideal é sempre estocástica se o ambiente também é estocástico?


10

A política ideal é sempre estocástica (ou seja, um mapa dos estados para uma distribuição de probabilidade sobre as ações) se o ambiente também é estocástico?

Intuitivamente, se o ambiente for determinístico (ou seja, se o agente estiver em um estado e tomar ação , então o próximo estado será sempre o mesmo, independentemente do intervalo de tempo), a política ideal também deverá ser determinística (isto é, deve ser um mapa de estados para ações, e não para uma distribuição de probabilidade sobre ações).sas


Aqui está uma pergunta relacionada: mathoverflow.net/q/44677 .
nbro

Respostas:


6

A política ideal é sempre estocástica (ou seja, um mapa dos estados para uma distribuição de probabilidade sobre as ações) se o ambiente também é estocástico?

Não.

Uma política ideal é geralmente determinística, a menos que:

  • Faltam informações importantes sobre o estado (um POMDP). Por exemplo, em um mapa em que o agente não tem permissão para saber sua localização exata ou lembrar de estados anteriores, e o estado fornecido não é suficiente para desambiguar entre os locais. Se o objetivo é chegar a um local final específico, a política ideal pode incluir alguns movimentos aleatórios para evitar ficar preso. Observe que o ambiente nesse caso pode ser determinístico (da perspectiva de alguém que pode ver todo o estado), mas ainda leva a exigir uma política estocástica para resolvê-lo.

  • Existe algum tipo de cenário da teoria dos jogos minimax, em que uma política determinística pode ser punida pelo ambiente ou por outro agente. Pense em tesoura / papel / pedra ou dilema do prisioneiro.

Intuitivamente, se o ambiente for determinístico (ou seja, se o agente estiver em um estado 𝑠 e tomar uma ação 𝑎, o próximo estado always ′ será sempre o mesmo, independentemente do intervalo de tempo), a política ideal também deverá ser determinística (isto é, deve ser um mapa de estados para ações, e não para uma distribuição de probabilidade sobre ações).

Isso parece razoável, mas você pode levar essa intuição adiante com qualquer método baseado em uma função de valor:

Se você encontrou uma função de valor ideal, agir com avidez em relação a ela é a política ideal.

A afirmação acima é apenas uma afirmação em linguagem natural da equação de otimização de Bellman:

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

ou seja, os valores ideais são obtidos ao escolher sempre a ação que maximiza a recompensa mais o valor descontado da próxima etapa. O maxa operação é determinista (se necessário você pode quebrar os laços para o valor máximo deterministically com, por exemplo, uma lista ordenada de ações).

Portanto, qualquer ambiente que possa ser modelado por um MDP e resolvido por um método baseado em valor (por exemplo, iteração de valor, Q-learning) possui uma política ótima que é determinística.

É possível em tal ambiente que a solução ótima não seja estocástica (ou seja, se você adicionar alguma aleatoriedade à política ideal determinística, a política se tornará estritamente pior). No entanto, quando existem vínculos para o valor máximo de uma ou mais ações em um ou mais estados, existem várias políticas ótimas e determinísticas equivalentes. Você pode construir uma política estocástica que as misture em qualquer combinação e também será ideal.


11
"É possível em tal ambiente que nenhuma política estocástica seja ideal", você quer dizer política determinística?
nbro

2
@ nbro: Não, eu realmente quero dizer que não existe uma política estocástica ideal. Este é geralmente o caso. Pense, por exemplo, em um simples solucionador de labirinto. Se a solução determinística ideal é um caminho único do início à saída, adicionar qualquer aleatoriedade a ela tornará a política estritamente pior. Isso não muda se o ambiente acrescenta ruído aleatório (por exemplo, movimentos às vezes falha)
Neil Slater

2
Eu entendo agora. Você está dizendo que sempre há uma política determinística, então uma política estocástica e derivada da política determinística provavelmente será pior do que a política determinística ideal.
nbro

11
@ nbro: Sim, é isso.
Neil Slater

5

Eu diria que não.

npiin

pi

Obviamente, se você estiver em um ambiente em que joga contra outro agente (uma configuração da teoria dos jogos), sua política ideal será certamente estocástica (pense em um jogo de pôquer, por exemplo).


pipii

2
@ nbro: É certo na expectativa, que é o que a política ideal maximiza. As políticas não tentam adivinhar os geradores de números aleatórios, o que é considerado impossível (se possível devido a algum estado interno do sistema, você deve adicionar esse estado interno ao modelo ou tratar como um POMDP)
Neil Slater

@NeilSlater Ok. Mas a conclusão mudaria se o tempo fosse finito? Se você tem um tempo limitado para jogar, acho que a expectativa também deve considerar o tempo disponível para jogar.
nbro

2
@ nbro: Isso pode mudar suas decisões, mas não é realmente sobre a política ideal. A política ideal para os braços de bandidos ainda é determinística, sobre o uso do melhor braço, mas você não sabe disso. Trata-se de exploração versus exploração. Você poderia dizer isso como tendo "uma política ideal para explorar um problema de bandidos" talvez. Não é a terminologia usada em, por exemplo, Sutton & Barto, mas talvez alguns participantes dizem isso, eu não sei. . .
Neil Slater

11
O ambiente contém apenas um estado em que você enfrenta a mesma decisão repetidamente: qual braço eu tenho que escolher?
Adrien Forbu

0

Estou pensando em um cenário de probabilidade, no qual você se vê como ator, com vários picos e vales desconhecidos. Uma boa abordagem determinística sempre levará você ao ideal local mais próximo, mas não necessariamente ao ideal global. Para encontrar o ideal global, algo como um algoritmo MCMC permitiria aceitar estocamente um resultado temporariamente pior para escapar de um ótimo local e encontrar o ótimo global. Minha intuição é que, em um ambiente estocástico, isso também seria verdade.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.