O jogo DQN Atari do DeepMind foi aprendido simultaneamente?

9

O DeepMind afirma que sua rede Q profunda (DQN) conseguiu adaptar continuamente seu comportamento enquanto aprendia a jogar 49 jogos da Atari.

Depois de aprender todos os jogos com a mesma rede neural, o agente foi capaz de jogá-los todos nos níveis 'sobre-humanos' simultaneamente (sempre que foi apresentado aleatoriamente com um dos jogos) ou poderia ser bom apenas em um jogo por vez, porque a mudança exigiu uma reaprendizagem?

neural-networks deep-learning deepmind

— Dion
fonte

"Depois de aprender todos os jogos com a mesma rede neural". Isso significa a mesma arquitetura NN OU a mesma arquitetura e um único conjunto de pesos?

— Ankur #

@ Ankur, na verdade, não tenho certeza - é meu entendimento (limitado) que eles usaram a mesma arquitetura e não redefiniram os pesos entre os jogos.

— Dion

2

A troca exigiu uma reaprendizagem.

Além disso, note que :

Usamos a mesma arquitetura de rede, algoritmo de aprendizado e configurações de hiperparâmetros em todos os sete jogos, mostrando que nossa abordagem é robusta o suficiente para trabalhar em uma variedade de jogos sem incorporar informações específicas do jogo. Enquanto avaliamos nossos agentes nos jogos reais e não modificados, fizemos uma alteração na estrutura de recompensa dos jogos apenas durante o treinamento.

e

a rede superou todos os algoritmos RL anteriores em seis dos sete jogos que tentamos e superamos um jogador humano experiente em três deles.

— Franck Dernoncourt
fonte

1

A mudança requer reaprendizagem; a rede não possuía um único conjunto de pesos que permitisse executar bem todos os jogos. Isto é devido ao problema de esquecimento catastrófico.

No entanto, trabalhos recentes foram feitos para superar esse problema:

"Superando o esquecimento catastrófico nas redes neurais", 2016

Artigo: https://arxiv.org/pdf/1612.00796v1.pdf

— Nix
fonte