Na robótica, a técnica de aprendizado por reforço é usada para encontrar o padrão de controle de um robô. Infelizmente, a maioria dos métodos de gradiente de políticas é estatisticamente tendenciosa, o que poderia levar o robô a uma situação insegura, consulte a página 2 de Jan Peters e Stefan Schaal: Aprendizado por reforço de habilidades motoras com gradientes de políticas, 2008
Com o aprendizado primitivo motor, é possível superar o problema porque a otimização dos parâmetros do gradiente de política direciona as etapas de aprendizado para o objetivo.
citação: “Se a estimativa do gradiente for imparcial e as taxas de aprendizado cumprirem a soma (a) = 0, é garantido que o processo de aprendizado converja para pelo menos um mínimo local [...] Portanto, precisamos estimar o gradiente da política somente a partir dos dados gerados. durante a execução de uma tarefa. ”(Página 4 do mesmo artigo)
Nos trabalhos de casa para o Problema 1 da classe RL de Berkeley , solicita que você mostre que o gradiente de política ainda é imparcial se a linha de base subtraída for uma função do estado no timestep t.
Estou lutando com o que pode ser o primeiro passo dessa prova. Alguém pode me apontar na direção certa? Meu pensamento inicial foi de alguma forma usar a lei da expectativa total para condicionar a expectativa de b (st) a T, mas não tenho certeza. Desde já, obrigado :)