Você pode encontrar a tabela completa em seu papel. Veja a tabela 2 na versão arXiv vinculada abaixo:
Como lê-los:
- As parcelas mostram a proporção de vezes que o alphazero jogou uma determinada abertura durante seus jogos de auto-treinamento em função do tempo de treinamento. Então, por exemplo, você pode ver que seu interesse em empregar a defesa francesa atingiu o pico após 2 horas, mas depois disso caiu abruptamente para quase 0, indicando que após 2 horas + treinamento percebeu que as linhas emergentes dessa abertura não eram ideais em comparação com outras opções, como a defesa Caro-Kann (que teve um platô promissor após 2 horas, mas que também caiu), o gráfico é mostrado abaixo.
- Abaixo dos diagramas, você vê como se saiu contra o Stockfish em 100 partidas para cada linha. Finalmente, a principal variação do alphazero para cada abertura também é indicada abaixo das parcelas. Por favor, veja a legenda da tabela no jornal para mais detalhes.
No geral, a abertura em inglês se destaca: ela continuou empregando-a de forma consistente durante todo o treinamento. Por fim, o padrão sugere uma tendência a aberturas mais versáteis.
Diagrama de Caro-Kann da tabela 2: [Ref]
[Ref]: Silver, David, et al. "Dominando o xadrez e o shogi por auto-jogo com um algoritmo geral de aprendizado por reforço". arXiv preprint arXiv: 1712.01815 (2017)