Perguntas com a marcação «multiarmed-bandit»






1
Bandido multi-armado para distribuição geral de recompensas
Estou trabalhando em um problema de bandidos com várias armas em que não temos informações sobre a distribuição de recompensas. Eu encontrei muitos artigos que garantem limites de arrependimento para uma distribuição com limite conhecido e para distribuições gerais com suporte em [0,1]. Eu gostaria de descobrir se existe uma …

2
Confiança superior limitada no aprendizado de máquina
Me deparei com a fórmula para obter limites superiores de confiança no problema dos bandidos armados com k: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} onde é a quantidade de amostras que temos para esse bandido específico e é a quantidade total de amostras que temos de todos os bandidos. O mesmo algoritmo é usado …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.