Aprendizado de Reforço Cooperativo

10

Eu já tenho uma implementação para um único agente que trabalha em um problema dinâmico de precificação com o objetivo de maximizar a receita. O problema com o qual estou trabalhando, no entanto, envolve vários produtos diferentes que são substitutos um do outro, portanto, o preço dinâmico de todos eles com alunos independentes parece incorreto, porque o preço de um influencia a recompensa do outro. O objetivo seria precificar dinamicamente todos eles, a fim de maximizar a soma de cada receita individual. $Q(\lambda)$

Eu tenho feito algumas pesquisas para tentar encontrar algo que aplique o aprendizado por reforço dessa maneira, mas muitas implementações de vários agentes que encontrei focam mais em jogos competitivos do que cooperativos, ou eles assumem conhecimento incompleto de outros agentes (eu teria concluído conhecimento de cada agente nesse cenário). Existe alguma aplicação bem pesquisada / documentada de aprendizado cooperativo dessa maneira?

machine-learning reinforcement-learning

— user3704120
fonte

1

Você pode procurar esses papéis. O primeiro está bastante relacionado à sua tarefa.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
fonte

0

Em suma, o que você está tentando alcançar é a eficiência de Pareto.

Para torná-lo cooperativo, você precisa definir uma única função de recompensa que é compartilhada por todos os jogadores (pode ser uma função que combina de alguma forma funções de recompensa individuais).

De alguma forma, você precisa ponderar as recompensas que obtém de um produto em relação aos outros.

— Juan Leni
fonte