Estou trabalhando em um problema de bandidos com várias armas em que não temos informações sobre a distribuição de recompensas.
Eu encontrei muitos artigos que garantem limites de arrependimento para uma distribuição com limite conhecido e para distribuições gerais com suporte em [0,1].
Eu gostaria de descobrir se existe uma maneira de ter um bom desempenho em um ambiente em que a distribuição de recompensas não tem garantias sobre seu suporte. Estou tentando calcular um limite de tolerância não paramétrico e usando esse número para dimensionar a distribuição de recompensa, para que eu possa usar o algoritmo 2 especificado neste artigo ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ) Alguém acha que essa abordagem funcionará?
Se não, alguém pode me apontar para o lugar certo?
Muitíssimo obrigado!