Estou tentando adicionar o GAE à minha implementação A2C há algum tempo, mas não consigo entender como isso funciona.
Pelo que entendi, é que reduz a variação da função de estimativa de vantagem por meio de 'média' (ou generalização) das vantagens baseadas nos valores da distribuição.
Tentei fazer as contas sozinho e, no final, só tive uma vantagem em toda a distribuição, certo? Normalmente, teríamos uma vantagem para cada etapa do lançamento.
Alguém pode fornecer uma explicação sobre a intuição do GAE?