Qual é a relação entre os métodos Q-learning e gradientes de políticas?

Tanto quanto eu entendo, Q-learning e gradientes de políticas (PG) são as duas principais abordagens usadas para resolver problemas de RL. Enquanto o Q-learning visa predizer a recompensa de uma determinada ação executada em um determinado estado, os gradientes das políticas predizem diretamente a própria ação.

No entanto, ambas as abordagens parecem idênticas para mim, ou seja, prever a recompensa máxima por uma ação (Q-learning) é equivalente a prever a probabilidade de executar a ação diretamente (PG). É a diferença na maneira como a perda é propagada de volta?

— Tejas Ramdas
fonte

No entanto, ambas as abordagens parecem idênticas para mim, ou seja, prever a recompensa máxima por uma ação (Q-learning) é equivalente a prever a probabilidade de executar a ação diretamente (PG).

Ambos os métodos são teoricamente orientados pelo construto Processo de Decisão de Markov e, como resultado, usam notação e conceitos semelhantes. Além disso, em ambientes simples e solucionáveis, você deve esperar que ambos os métodos resultem nas mesmas políticas ótimas - ou pelo menos equivalentes.

No entanto, eles são realmente diferentes internamente. As diferenças mais fundamentais entre as abordagens estão na maneira como abordam a seleção de ações, enquanto aprendem e como resultado (a política aprendida). No Q-learning, o objetivo é aprender uma única ação determinística a partir de um conjunto discreto de ações, encontrando o valor máximo. Com gradientes de políticas e outras pesquisas diretas de políticas, o objetivo é aprender um mapa do estado para a ação, que pode ser estocástico e funciona em espaços de ação contínuos.

Como resultado, os métodos de gradiente de política podem resolver problemas que os métodos baseados em valor não podem:

Espaço de ação amplo e contínuo. No entanto, com métodos baseados em valores, isso ainda pode ser aproximado com discretização - e isso não é uma má escolha, pois a função de mapeamento no gradiente de políticas deve ser na prática algum tipo de aproximador.
Políticas estocásticas. Um método baseado em valor não pode resolver um ambiente em que a política ideal é estocástica, exigindo probabilidades específicas, como Tesoura / Papel / Pedra. Isso ocorre porque não há parâmetros treináveis no Q-learning que controlam as probabilidades de ação, a formulação do problema no aprendizado do TD pressupõe que um agente determinístico possa ser o ideal.

No entanto, métodos baseados em valor como o Q-learning também têm algumas vantagens:

$p(a \mid s, \theta)$ $\theta$
Rapidez. Os métodos de aprendizado de TD que iniciam com freqüência são muito mais rápidos para aprender uma política do que os métodos que devem ser retirados do ambiente para avaliar o progresso.

Há outras razões pelas quais você pode usar uma ou outra abordagem:

Você pode querer saber o retorno previsto enquanto o processo está em execução, para ajudar outros processos de planejamento associados ao agente.
A representação do estado do problema se presta mais facilmente a uma função de valor ou a uma função de política. Uma função de valor pode ter um relacionamento muito simples com o estado e a função de política muito complexa e difícil de aprender, ou vice-versa .

Alguns solucionadores de RL de ponta, na verdade, usam as duas abordagens juntos, como o Critic de Atores. Isso combina pontos fortes de métodos de gradação de valor e política.

— Neil Slater
fonte

O que você quer dizer quando diz que o ator-crítico combina a força de ambos os métodos? No meu entender, o ator avalia a melhor ação a ser tomada com base no estado, e o crítico avalia o valor desse estado e depois alimenta a recompensa do ator. Tratá-los como uma única unidade "Política" ainda parece um gradiente de política para mim. Por que isso é realmente como Q-learning?

— Gulzar

@Guizar: O crítico aprende usando um método baseado em valor (por exemplo, Q-learning). Portanto, em geral, o ator-crítico é uma combinação de um método de valor e um método de gradiente de política, e se beneficia dessa combinação. Uma melhoria notável em relação ao PG "vanilla" é que os gradientes podem ser avaliados em cada etapa, em vez de no final de cada episódio. Se você estiver procurando uma resposta mais detalhada sobre esse assunto, faça uma pergunta no site.

— Neil Slater

@Guizar: Na verdade, risque o (por exemplo, Q-learning), pois estou ficando confuso entre o ator-crítico de vantagem (que ajusta a linha de base para ser baseado em valores de ação) e o crítico, que geralmente é um valor de estado mais simples. No entanto, o restante da minha descrição ainda é o mesmo, o crítico geralmente é atualizado usando métodos de TD baseados em valor, dos quais o aprendizado Q também é um exemplo.

— Neil Slater