Eu estava lendo as notas da aula de Andrew Ng sobre aprendizado por reforço e estava tentando entender por que a iteração de políticas convergiu para a função de valor ideal e a política ideal .
Lembre-se de que a iteração da política é:
Por que um algoritmo ganancioso leva a uma política ótima e a uma função de valor ideal? (Eu sei que algoritmos gananciosos nem sempre garantem isso ou podem ficar presos nos ótimos locais, então eu só queria ver uma prova de sua otimização do algoritmo).
Além disso, parece-me que a iteração da política é algo análogo à descida em cluster ou gradiente. Para cluster, porque com a configuração atual dos parâmetros, otimizamos. Semelhante à descida do gradiente, porque apenas escolhe algum valor que parece aumentar alguma função. Esses dois métodos nem sempre convergem para o máximo ideal e eu estava tentando entender como esse algoritmo era diferente dos anteriores.
Estes são os meus pensamentos até agora:
Digamos que começamos com alguma política ; depois da primeira etapa, para essa política fixa, temos o seguinte:
Onde V ^ {(1)} é a função de valor para a primeira iteração. Depois da segunda etapa, escolhemos uma nova política para aumentar o valor de . Agora, com a nova política , se fizermos o segundo passo do algoritmo, a seguinte desigualdade será verdadeira:
Como escolhemos na segunda etapa para aumentar a função de valor na etapa anterior (ou seja, para melhorar . Até agora, é claro que a escolha de só pode aumentar V ^ {(1)}, porque é assim que escolhemos No entanto, minha confusão vem na etapa de repetição, porque, uma vez que repetimos e voltamos à etapa 1, na verdade mudamos completamente as coisas porque recalculamos para a nova política . Que dá:
mas NÃO é:
O que parece ser um problema porque foi escolhido para melhorar , e não esse novo . Basicamente, o problema é que garantias para melhorar , fazendo vez de quando a função de valor é . Porém, na etapa de repetição, para , mas não vejo como isso garante que a função value melhore monotonicamente a cada repetição porque foi calculado para melhorar a função value quando as funções de valor permanecem em V π 1, mas a etapa 1 altera para (o que é ruim porque eu apenas a função de valor anterior que tínhamos).