UCB é realmente quase ideal no caso estocástico (até um fator T logarítmico para um jogo da rodada T) e até uma lacuna na desigualdade de Pinsker em um sentido mais dependente de problemas. Artigo recente de Audibert e Bubeck remove essa dependência de log no pior dos casos, mas tem um limite pior no caso favorável quando braços diferentes têm recompensas bem separadas.
Em geral, o UCB é um candidato de uma família maior de algoritmos. Em qualquer ponto do jogo, você pode observar todos os braços que não são "desqualificados", ou seja, cujo limite superior de confiança não é menor que o limite inferior de um braço. A escolha com base em qualquer distribuição de armas qualificadas constitui uma estratégia válida e gera um arrependimento semelhante às constantes.
Empiricamente, não acho que tenha havido uma avaliação significativa de muitas estratégias diferentes, mas acho que a UCB geralmente é muito boa.
A maioria das pesquisas mais recentes se concentrou em estender os problemas dos bandidos além do cenário simples com armas K, com recompensas estocásticas, para espaços de ação muito grandes (ou infinitos), com ou sem informações laterais, e sob feedback estocástico ou adversário. Também houve trabalhos em cenários em que os critérios de desempenho são diferentes (como a identificação do melhor braço apenas).