O artigo AlphaGo Zero da Nature , "Dominando o jogo de ir sem conhecimento humano", afirma quatro grandes diferenças em relação à versão anterior:
- Somente autoaprendizagem (não treinada em jogos humanos)
- Usando apenas o tabuleiro e as pedras como entrada (sem recursos escritos à mão).
- Usando uma única rede neural para políticas e valores
- Um novo algoritmo de pesquisa em árvore que usa essa política combinada / rede de valores para orientar onde procurar boas jogadas.
Os pontos (1) e (2) não são novos no aprendizado de reforço, mas melhoram o software AlphaGo anterior , conforme indicado nos comentários da sua pergunta. Apenas significa que agora eles estão usando o Aprendizado por Reforço puro, começando com pesos inicializados aleatoriamente. Isso é ativado por algoritmos de aprendizado melhores e mais rápidos.
A alegação deles aqui é "Nossa principal contribuição é demonstrar que o desempenho sobre-humano pode ser alcançado sem o conhecimento do domínio humano". (p. 22)
Os pontos (3) e (4) são novos no sentido de que seu algoritmo é mais simples e mais geral do que sua abordagem anterior. Eles também mencionam que é uma melhoria em relação ao trabalho anterior de Guo et al.
A unificação da rede de política / valor (3) permite que eles implementem uma variante mais eficiente da pesquisa em árvore de Monte-Carlo para procurar boas jogadas e, simultaneamente, usando a árvore de pesquisa para treinar a rede mais rapidamente (4). Isso é muito poderoso.
Além disso, eles descrevem vários detalhes interessantes de implementação, como agrupar e reutilizar estruturas de dados para otimizar a pesquisa de novas mudanças.
O efeito é que ele precisa de menos poder de computação, rodando em 4 TPUs em vez de 176 GPUs e 48 TPUs para versões anteriores de seus softwares.
Isso definitivamente o torna "inovador" no contexto do software Go. Eu acredito que (3) e (4) também são "inovadores" em um contexto mais amplo e serão aplicáveis em outros domínios do Aprendizado por Reforço, como por exemplo, robótica.