Estou interessado em (Deep) Reinforcement Learning (RL) . Antes de mergulhar neste campo, devo fazer um curso em Teoria dos Jogos (GT) ?
Como o GT e o RL estão relacionados?
Estou interessado em (Deep) Reinforcement Learning (RL) . Antes de mergulhar neste campo, devo fazer um curso em Teoria dos Jogos (GT) ?
Como o GT e o RL estão relacionados?
Respostas:
No Aprendizado por Reforço (RL), é comum imaginar um Processo de Decisão de Markov (MDP) subjacente. Então, o objetivo da RL é aprender uma boa política para o MDP, que geralmente é apenas parcialmente especificado. Os MDPs podem ter objetivos diferentes, como recompensa total, média ou com desconto, em que a recompensa com desconto é a suposição mais comum para RL. Existem extensões bem estudadas de MDPs para configurações de dois jogadores (ou seja, jogos); veja, por exemplo,
Filar, Jerzy e Koos Vrieze. Processos decisórios competitivos de Markov . Springer Science & Business Media, 2012.
Existe uma teoria subjacente compartilhada pelos MDPs e suas extensões aos jogos para dois jogadores (soma zero), incluindo, por exemplo, o teorema de ponto fixo de Banach, Iteração de Valor, Optimalidade de Bellman, Iteração de Política / Melhoria de Estratégia etc. No entanto, enquanto houver essas conexões estreitas entre os MDPs (e, portanto, o RL) e esses tipos específicos de jogos:
A teoria dos jogos está bastante envolvida no contexto do aprendizado de reforço multi-agente (MARL).
Dê uma olhada nos jogos estocásticos ou leia o artigo Uma Análise da Teoria dos Jogos Estocásticos para o Aprendizado de Reforço Multiagente .
Eu não consideraria o GT um pré-requisito para a RL. No entanto, fornece uma boa extensão para o caso de vários agentes.
RL: Um único agente é treinado para resolver um problema de decisão de Markov (MDPS). GT: Dois agentes são treinados para resolver jogos. Um aprendizado de reforço multi-agente (MARL) pode ser usado para resolver jogos estocásticos.
Se você está interessado no aplicativo de agente único da RL no aprendizado profundo, não precisa fazer nenhum curso de GT. Para dois ou mais agentes, talvez você precise conhecer as técnicas da teoria dos jogos.