No artigo de 2015 da DeepMind sobre aprendizado profundo por reforço, ele afirma que "as tentativas anteriores de combinar RL com redes neurais falharam amplamente devido ao aprendizado instável". O artigo lista algumas causas disso, com base nas correlações entre as observações.
Por favor, alguém poderia explicar o que isso significa? É uma forma de super adaptação, onde a rede neural aprende alguma estrutura que está presente no treinamento, mas pode não estar presente nos testes? Ou isso significa outra coisa?
O artigo pode ser encontrado em: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
E a seção que estou tentando entender é:
Sabe-se que o aprendizado por reforço é instável ou mesmo diverge quando um aproximador de função não linear, como uma rede neural, é usado para representar a função de valor de ação (também conhecido como Q). Essa instabilidade tem várias causas: as correlações presentes na sequência de observações, o fato de que pequenas atualizações em Q podem alterar significativamente a política e, portanto, alterar a distribuição de dados e as correlações entre os valores de ação e os valores de destino.
Abordamos essas instabilidades com uma nova variante do Q-learning, que usa duas idéias principais. Primeiro, usamos um mecanismo de inspiração biológica denominado replay de experiência que randomiza os dados, removendo assim as correlações na sequência de observação e suavizando as alterações na distribuição dos dados. Segundo, usamos uma atualização iterativa que ajusta os valores de ação (Q) em relação aos valores-alvo que são atualizados apenas periodicamente, reduzindo assim as correlações com o alvo.