Estou ciente de perguntas relacionadas e ótimas respostas sobre o mesmo tópico, como Noções básicas sobre o AlphaZero . Minhas perguntas estão relacionadas à figura a seguir no procedimento de pesquisa do AlphaZero
Esta figura vem do artigo da Science no AlphaZero (Fig. 4, página 4). A busca é ilustrada para uma posição do jogo muito agradável 1 AlphaZero (branco) e Stockfish (preto) após 29. ... Qf8. O restante da nota da figura é o seguinte
O estado interno do MCTS do AlphaZero é resumido após simulações de 10 ^ 2, ..., 10 ^ 6. Cada resumo mostra os 10 estados mais visitados. O valor estimado é mostrado em cada estado, da perspectiva do branco, escalado para o intervalo [0, 100]. A contagem de visitas de cada estado, em relação ao estado raiz dessa árvore, é proporcional à espessura do círculo da borda. AlphaZero considera 30.c6, mas eventualmente joga 30.d5.
Eu apreciaria algumas idéias sobre as seguintes perguntas. (Importante notar que sou um mero jogador de xadrez sem conhecimento em ciência da computação. Ainda acho isso fascinante)
- O que representa as simulações 10 ^ 2, ..., 10 ^ 6? Estou muito confuso porque no Material Complementar eles observam que `` Durante o treinamento, cada MCTS usou 800 simulações ''.
- O que significa que cada MCTS usou 800 simulações?
- Suponho que o valor de 60 no círculo vermelho nas simulações 10 ^ 2 represente uma pontuação esperada de 60% para o branco, que é a média de todas as avaliações de posição. No entanto, a média simples dos 9 movimentos mostrados é igual a 61,2. Acho que outros movimentos também foram considerados e simulados. Estou bem aqui?
- Suponho que para as simulações 10 ^ 3 a 10 ^ 6, elas apresentem apenas uma amostra ilustrativa dos ramos. A simulação 10 ^ 5 não é mostrada após 34.Rce1 ou parada após 34.Rce1? Eu acho que cada simulação vai até uma pontuação esperada de 100%.