Por que o aprendizado por reforço profundo é instável?


13

No artigo de 2015 da DeepMind sobre aprendizado profundo por reforço, ele afirma que "as tentativas anteriores de combinar RL com redes neurais falharam amplamente devido ao aprendizado instável". O artigo lista algumas causas disso, com base nas correlações entre as observações.

Por favor, alguém poderia explicar o que isso significa? É uma forma de super adaptação, onde a rede neural aprende alguma estrutura que está presente no treinamento, mas pode não estar presente nos testes? Ou isso significa outra coisa?


O artigo pode ser encontrado em: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

E a seção que estou tentando entender é:

Sabe-se que o aprendizado por reforço é instável ou mesmo diverge quando um aproximador de função não linear, como uma rede neural, é usado para representar a função de valor de ação (também conhecido como Q). Essa instabilidade tem várias causas: as correlações presentes na sequência de observações, o fato de que pequenas atualizações em Q podem alterar significativamente a política e, portanto, alterar a distribuição de dados e as correlações entre os valores de ação e os valores de destino.

Abordamos essas instabilidades com uma nova variante do Q-learning, que usa duas idéias principais. Primeiro, usamos um mecanismo de inspiração biológica denominado replay de experiência que randomiza os dados, removendo assim as correlações na sequência de observação e suavizando as alterações na distribuição dos dados. Segundo, usamos uma atualização iterativa que ajusta os valores de ação (Q) em relação aos valores-alvo que são atualizados apenas periodicamente, reduzindo assim as correlações com o alvo.


Para garantir que você esteja treinando seu agente em dados não correlacionados, não atualize a memória do agente a cada etapa, corrija uma etapa de armazenamento para fazer uma correlação nos dados.
Narjes karmani

Respostas:


11

O principal problema é que, como em muitos outros campos, o DNN pode ser difícil de treinar. Aqui, um problema é a correlação dos dados de entrada: se você pensar em um videogame (eles realmente os usam para testar seus algoritmos), você pode imaginar que as capturas de tela feitas um passo após o outro são altamente correlacionadas: o jogo evolui "continuamente". Isso, para NNs, pode ser um problema: fazer muitas iterações de descida de gradiente em entradas semelhantes e correlatas pode levar a superajustá-las e / ou cair no mínimo local. É por isso que eles usam a repetição da experiência: eles armazenam uma série de "instantâneos" do jogo, depois os embaralham e escolhem alguns passos mais tarde para fazer o treinamento. Dessa forma, os dados não estão mais correlacionados. Em seguida, eles percebem como, durante o treinamento, os valores Q (previstos pelo NN) podem alterar a política em andamento,


Por dados "embaralhados", você quer dizer experiências aleatórias e fora de sequência, amostradas em um mini lote? Como isso corresponde à "recompensa futura com desconto", que parece implicar experiências em sequência?
Isobretatel
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.