Diferença entre Advantage Actor Critic e TD Actor Critic?

7

Eu tenho uma pergunta sobre métodos críticos de ator no aprendizado por reforço.

Nestes slides ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) são explicados diferentes tipos de atores críticos. O crítico de atores Advantage e o ator de TD são mencionados no último slide:

Mas quando olho para o slide "Estimando a função de vantagem (2)", diz-se que a função de vantagem pode ser aproximada pelo erro td. A regra de atualização inclui o erro td da mesma maneira que no crítico de ator de TD.

Então o crítico de vantagem e td ator crítico é realmente o mesmo? Ou há uma diferença que eu não vejo?

reinforcement-learning

— needRhelp
fonte

0

A vantagem pode ser aproximada por erro TD. Isso pode ser útil, especialmente se você deseja atualizar após cada transição. $\theta$

Para as abordagens de lote, é possível calcular por exemplo, por meio da iteração Q e, posteriormente, . Usando isso, você tem a função de vantagem geral e sua alteração gradual da política pode ser muito mais estável, pois estará mais próxima da função de vantagem global / real. $Q_w(A,S)$ $V(S)$

— Karel Macek
fonte

0

Eles são diferentes. Vantagem é a diferença entre o valor da ação e o valor do estado. Erro TD é o termo de erro que a função de valor deseja minimizar.

O erro TD pode ser usado para aproximar a vantagem. Existem outras maneiras de aproximar vantagens também, como (return - state_value).

— SQ
fonte