Como funciona a estimativa de vantagem generalizada?


8

Estou tentando adicionar o GAE à minha implementação A2C há algum tempo, mas não consigo entender como isso funciona.

Pelo que entendi, é que reduz a variação da função de estimativa de vantagem por meio de 'média' (ou generalização) das vantagens baseadas nos valores da distribuição.

Tentei fazer as contas sozinho e, no final, só tive uma vantagem em toda a distribuição, certo? Normalmente, teríamos uma vantagem para cada etapa do lançamento.

Alguém pode fornecer uma explicação sobre a intuição do GAE?

Respostas:


7

Achei muito intuitiva a explicação do GAE no material complementar deste artigo: DeepMimic . Você não precisa ler o jornal. Vá direto para a seção Material suplementar na página 143: 15. Para o retorno λ, você pode encontrar muitas informações no livro Reinforcement Learning de Sutton e Barto. Espero que ajude!


11
Boa captura, essa é a explicação mais clara do retorno λ que li até agora!
MasterScrat

1

Você pode encontrar uma boa explicação sobre o retorno λ no blog de Lilian Weng: Combinando TD e MC Learning .

O Generalized Advantage Estimator GAE (λ) simplesmente usa retorno λ para estimar a função de vantagem.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.