O MCTS / UCT é um método de pesquisa em árvore de jogo que usa um algoritmo de bandido para selecionar nós promissores a serem explorados. Os jogos são concluídos aleatoriamente e os nós que levam a mais vitórias são explorados com mais intensidade. O algoritmo bandido mantém um equilíbrio entre explorar nós com altas taxas de vitória e explorar nós desconhecidos (e em sua forma pura não necessariamente usa uma função de avaliação heurística). Os programas baseados nessa técnica geral obtiveram resultados surpreendentes no computador Go .
As pesquisas monte-carlo dirigidas por bandidos foram aplicadas a outros problemas de pesquisa? Por exemplo, seria uma abordagem útil na aproximação de soluções para MAX-SAT, BKP ou outros problemas de otimização combinatória? Existem características particulares de um problema (estrutural / estatístico / etc.) Que sugiram se uma abordagem no estilo bandido seria ou não eficaz?
Existem problemas determinísticos conhecidos que seriam totalmente resistentes aos métodos de bandidos, devido à natureza do espaço da solução?