Eu já tenho uma implementação para um único agente que trabalha em um problema dinâmico de precificação com o objetivo de maximizar a receita. O problema com o qual estou trabalhando, no entanto, envolve vários produtos diferentes que são substitutos um do outro, portanto, o preço dinâmico de todos eles com alunos independentes parece incorreto, porque o preço de um influencia a recompensa do outro. O objetivo seria precificar dinamicamente todos eles, a fim de maximizar a soma de cada receita individual.
Eu tenho feito algumas pesquisas para tentar encontrar algo que aplique o aprendizado por reforço dessa maneira, mas muitas implementações de vários agentes que encontrei focam mais em jogos competitivos do que cooperativos, ou eles assumem conhecimento incompleto de outros agentes (eu teria concluído conhecimento de cada agente nesse cenário). Existe alguma aplicação bem pesquisada / documentada de aprendizado cooperativo dessa maneira?