Para o meu melhor entendimento, o algoritmo MCTS (Monte Carlo Tree Search) é uma alternativa ao minimax para pesquisar uma árvore de nós. Ele funciona escolhendo um movimento (geralmente aquele com maior chance de ser o melhor) e, em seguida, executando um playout aleatório em movimento para ver qual é o resultado. Esse processo continua pelo tempo alocado.
Isso não soa como aprendizado de máquina, mas uma maneira de atravessar uma árvore. No entanto, ouvi dizer que o AlphaZero usa o MCTS, por isso estou confuso. Se o AlphaZero usa o MCTS, por que o AlphaZero aprende? Ou o AlphaZero fez algum tipo de aprendizado de máquina antes de disputar alguma partida e depois usou a intuição que ganhou com o aprendizado de máquina para saber quais movimentos se gasta mais tempo jogando com o MCTS?