Nos artigos AlphaGo Zero e AlphaZero do DeepMind , eles descrevem a adição de ruído Dirichlet às probabilidades anteriores de ações do nó raiz (estado da placa) na Monte Carlo Tree Search:
Exploração adicional é obtida adicionando ruído Dirichlet às probabilidades anteriores no nó raiz , especificamente , em que e ; esse ruído garante que todas as jogadas possam ser tentadas, mas a pesquisa ainda pode anular as jogadas ruins.
(AlphaGo Zero)
E:
O ruído do dirichlet foi adicionado às probabilidades anteriores no nó raiz; isso foi escalado em proporção inversa ao número aproximado de movimentos legais em uma posição típica, com um valor de para xadrez, shogi e Go, respectivamente.
(AlphaZero)
Duas coisas que eu não entendo:
P(s, a)é um vetor dimensional. É abreviação para a distribuição Dirichlet com parâmetros, cada um com valor ?Só me deparei com Dirichlet como o conjugado anterior da distribuição multinomial. Por que foi escolhido aqui?
Por contexto, P(s, a)é apenas um componente do cálculo PUCT (árvore de confiança superior polinomial, uma variante dos limites de confiança superior) para um determinado estado / ação. É dimensionado por uma constante e uma métrica para quantas vezes a ação especificada foi selecionada entre seus irmãos durante o MCTS e adicionada ao valor estimado da ação Q(s, a):
PUCT(s, a) = Q(s, a) + U(s, a).- .