TL; DR.
O fato de a taxa de desconto ser menor que 1 é um truque matemático para tornar uma soma infinita finita. Isso ajuda a provar a convergência de certos algoritmos.
Na prática, o fator de desconto pode ser usado para modelar o fato de que o tomador de decisão não tem certeza se no próximo instante de decisão o mundo (por exemplo, ambiente / jogo / processo ) vai terminar.
Por exemplo:
Se o tomador de decisão for um robô, o fator de desconto pode ser a probabilidade de o robô ser desligado no próximo instante (o mundo termina na terminologia anterior). Essa é a razão pela qual o robô é míope e não otimiza a recompensa de soma, mas a
recompensa de soma com desconto .
Fator de desconto menor que 1 (em detalhes)
Para responder com mais precisão, por que a taxa de desconto deve ser menor que uma, apresentarei primeiro os Processos de Decisão de Markov (MDPs).
SA
Em sua configuração básica, o tomador de decisão toma uma ação e recebe uma recompensa do ambiente, e o ambiente muda de estado. Então, o tomador de decisão sente o estado do ambiente, toma uma ação, recebe uma recompensa e assim por diante. As transições de estado são probabilísticas e dependem apenas do estado real e das ações tomadas pelo tomador de decisão. A recompensa obtida pelo tomador de decisão depende das medidas tomadas e do estado original e do novo ambiente.
Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
π
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
ββ<1
Observe que o problema de otimização acima tem um horizonte de tempo infinito ( ), e o objetivo é maximizar a soma da recompensa com (a recompensa é multiplicada por ). Isso geralmente é chamado de problema do MDP com um critério de recompensa com desconto no horizonte infinito .T→∞discountedRβn
O problema é chamado de desconto porque . Se não houvesse um problema com desconto a soma não convergiria. Todas as políticas que obtêm, em média, uma recompensa positiva a cada instante somam-se ao infinito. Seria um critério de recompensa de soma de horizonte infinito e não é um bom critério de otimização.β<1β=1
Aqui está um exemplo de brinquedo para mostrar o que eu quero dizer:
Suponha que haja apenas duas ações possíveis e que a função de recompensa seja igual a se e se (a recompensa não depende do estado).a=0,1R1a=10a=0
É claro que a política que recebe mais recompensa é sempre executar ação e nunca a ação . Vou chamar essa política de . Compararei com outra política que executa a ação com pequena probabilidade , e a ação caso contrário.a=1a=0π∗π∗π′a=1α<<1a=0
No horizonte infinito, a equação dos critérios de recompensa com desconto (1) se torna (a soma de uma série geométrica) para a política enquanto que para equação da política (1) se torna . Como , dizemos que é uma política melhor que . Na verdade, é a política ideal.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
No horizonte infinito, os critérios de recompensa da soma ( ) a equação (1) não convergem para nenhuma das políticas (ela soma até o infinito). Portanto, enquanto a política obtém recompensas maiores do que a ambas as políticas são iguais de acordo com esse critério. Essa é uma das razões pelas quais os critérios de recompensa da soma do horizonte infinito não são úteis.β=1ππ′
Como mencionei antes, faz o truque de fazer a soma na equação (1) convergir.β<1
Outros critérios de otimização
Existem outros critérios de otimização que não impõem esse :β<1
Os critérios de horizonte finito, caso o objetivo seja maximizar a recompensa com desconto até o horizonte de tempoT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
para e finito.β≤1T
No critério de recompensa média do horizonte infinito, o objetivo é
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Nota final
Dependendo dos critérios de otimização, seria utilizado um algoritmo diferente para encontrar a política ideal. Por exemplo, as políticas ótimas dos problemas do horizonte finito dependeriam do estado e do instante de tempo real. A maioria dos algoritmos de aprendizado por reforço (como SARSA ou Q-learning) converge para a política ideal apenas para os critérios de horizonte infinito de recompensa com desconto (o mesmo acontece para os algoritmos de programação dinâmica). Para os critérios médios de recompensa, não foi demonstrado que nenhum algoritmo converja para a política ideal, no entanto, pode-se usar R-learning com bom desempenho, embora sem boa convergência teórica.