Nos artigos AlphaGo Zero e AlphaZero do DeepMind , eles descrevem a adição de ruído Dirichlet às probabilidades anteriores de ações do nó raiz (estado da placa) na Monte Carlo Tree Search:
Exploração adicional é obtida adicionando ruído Dirichlet às probabilidades anteriores no nó raiz , especificamente , em que e ; esse ruído garante que todas as jogadas possam ser tentadas, mas a pesquisa ainda pode anular as jogadas ruins.
(AlphaGo Zero)
E:
O ruído do dirichlet foi adicionado às probabilidades anteriores no nó raiz; isso foi escalado em proporção inversa ao número aproximado de movimentos legais em uma posição típica, com um valor de para xadrez, shogi e Go, respectivamente.
(AlphaZero)
Duas coisas que eu não entendo:
P(s, a)
é um vetor dimensional. É abreviação para a distribuição Dirichlet com parâmetros, cada um com valor ?Só me deparei com Dirichlet como o conjugado anterior da distribuição multinomial. Por que foi escolhido aqui?
Por contexto, P(s, a)
é apenas um componente do cálculo PUCT (árvore de confiança superior polinomial, uma variante dos limites de confiança superior) para um determinado estado / ação. É dimensionado por uma constante e uma métrica para quantas vezes a ação especificada foi selecionada entre seus irmãos durante o MCTS e adicionada ao valor estimado da ação Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .