3
Melhor algoritmo de bandido?
O algoritmo de bandido mais conhecido é o limite superior de confiança (UCB), que popularizou essa classe de algoritmos. Desde então, presumo que agora existem algoritmos melhores. Qual é o melhor algoritmo atual (em termos de desempenho empírico ou limites teóricos)? Esse algoritmo é ideal em algum sentido?