1
Aprendendo a estrutura de uma tarefa de reforço hierárquico
Venho estudando problemas de aprendizado de reforço hierárquico e, embora muitos trabalhos proponham algoritmos para o aprendizado de uma política, todos parecem supor que conhecem antecipadamente uma estrutura gráfica que descreve a hierarquia das ações no domínio. Por exemplo, O método MAXQ para aprendizado de reforço hierárquico de Dietterich descreve …