Como funciona a estimativa de vantagem generalizada?

8

Estou tentando adicionar o GAE à minha implementação A2C há algum tempo, mas não consigo entender como isso funciona.

Pelo que entendi, é que reduz a variação da função de estimativa de vantagem por meio de 'média' (ou generalização) das vantagens baseadas nos valores da distribuição.

Tentei fazer as contas sozinho e, no final, só tive uma vantagem em toda a distribuição, certo? Normalmente, teríamos uma vantagem para cada etapa do lançamento.

Alguém pode fornecer uma explicação sobre a intuição do GAE?

machine-learning reinforcement-learning

— Omegastick
fonte

7

Achei muito intuitiva a explicação do GAE no material complementar deste artigo: DeepMimic . Você não precisa ler o jornal. Vá direto para a seção Material suplementar na página 143: 15. Para o retorno λ, você pode encontrar muitas informações no livro Reinforcement Learning de Sutton e Barto. Espero que ajude!

— Constantinos
fonte

11

Boa captura, essa é a explicação mais clara do retorno λ que li até agora!

— MasterScrat

1

Você pode encontrar uma boa explicação sobre o retorno λ no blog de Lilian Weng: Combinando TD e MC Learning .

O Generalized Advantage Estimator GAE (λ) simplesmente usa retorno λ para estimar a função de vantagem.

— MasterScrat
fonte