Parece que a rede de políticas determina uma distribuição de probabilidade sobre os possíveis movimentos quando no estado do jogo . Quando o programa está pesquisando na árvore do jogo, ele o faz de maneira aleatória determina como ele faz essa pesquisa. A esperança é que essa função "guie" o programa para boas jogadas que um jogador forte provavelmente fará. Isso faz sentido, porque quando você pesquisa na árvore do jogo, os galhos que começam com erros são menos relevantes ao avaliar a posição atual do tabuleiro contra um oponente inteligente.p(a∣s)asp
Quando eles dizem que a política de rollout (acredito que eles pegaram emprestado o termo "rollout" de gamão) é uma função softmax linear, estão se referindo a uma generalização da função sigmoide usada na regressão logística. Esta função assume a forma
eβTix∑kj=1eβTjx
onde é um vetor que é uma função da posição atual da placa (de acordo com o documento, o softmax linear é usado apenas na última etapa da rede de políticas) e é um vetor de pesos que juntos determinam a probabilidade de a política a rede escolherá a ação .xβiai