Vou tentar dar uma explicação sem nenhuma matemática. Parte desta resposta é repetida a partir de alguns pontos que fiz em resposta a outra pergunta sobre os problemas do MAB .
O trade-off estratégico em problemas de bandidos de múltiplos braços: Em problemas de bandidos de vários braços, o jogador joga um "bandido" a cada rodada e tenta maximizar seu retorno total esperado ao longo de um determinado número de rodadas. O retorno esperado de cada um dos bandidos é descrito por alguns parâmetros desconhecidos no problema, e, à medida que observamos mais resultados em cada rodada, obtemos mais informações sobre esses parâmetros desconhecidos e, portanto, sobre o retorno esperado de cada um dos bandidos. . Em cada rodada do jogo (exceto a última), o problema do MAB envolve uma troca estratégica pelo jogador entre dois objetivos:
Recompensas imediatas: em cada rodada, ele gostaria de escolher uma distribuição que lhe dê uma alta recompensa esperada nessa rodada, o que implica uma preferência por distribuições que ele (atualmente) deduz para ter uma alta recompensa média;
Recompensas futuras (afetadas pelo ganho de informações): por outro lado, ele deseja refinar seu conhecimento das verdadeiras recompensas esperadas, obtendo mais informações sobre as distribuições (especialmente aquelas que ele não jogou tanto quanto as outras), para poder melhorar suas escolhas nas próximas rodadas.
A importância relativa dessas duas coisas determinará o compromisso, e essa importância relativa é afetada por vários fatores. Por exemplo, se houver apenas um pequeno número de rodadas restantes no problema, a inferência para ensaios futuros será relativamente menos valiosa, enquanto que se houver um grande número de rodadas restantes, a inferência para recompensas futuras será relativamente mais valiosa. Portanto, o jogador precisa considerar o quanto ele quer se concentrar em maximizar as recompensas imediatas na rodada atual e quanto ele quer se desviar disso, para aprender mais sobre os parâmetros desconhecidos que determinam a recompensa esperada de cada um dos bandidos.
Amostragem de Thompson: A idéia básica da amostragem de Thompson é que, a cada rodada, pegamos nosso conhecimento existente das máquinas, que está na forma de uma crença posterior sobre os parâmetros desconhecidos e "amostramos" os parâmetros dessa distribuição posterior. Este parâmetro amostrado gera um conjunto de recompensas esperadas para cada máquina, e agora apostamos na que possui o maior retorno esperado, sob esse parâmetro amostrado.
Prima facie , o esquema de amostragem Thompson parece envolver uma tentativa de maximizar o retorno esperado imediato em cada rodada (já que envolve essa etapa de maximização após a amostragem do parâmetro). No entanto, por envolver amostragem aleatória do parâmetro a partir do posterior, o esquema envolve um implícitovariação da maximização da recompensa atual, em comparação à busca por mais informações. Na maioria das vezes, obteremos um parâmetro "amostra" que fica em algum lugar na parte principal do posterior, e a escolha da máquina aproximará aproximadamente a maximização da recompensa imediata. No entanto, algumas vezes amostraremos aleatoriamente um valor de parâmetro que está muito distante da distribuição posterior e, nesse caso, acabaremos escolhendo uma máquina que não maximize a recompensa imediata - ou seja, isso constituirá mais uma "pesquisa" "para ajudar com recompensas futuras.
O esquema de Thompson também tem a propriedade legal de que tendemos a diminuir nossa "pesquisa" à medida que obtemos mais informações, e isso imita o trade-off estratégico desejável no problema, onde queremos nos concentrar menos nas pesquisas à medida que obtemos mais informações. À medida que jogamos mais e mais rodadas e obtemos mais e mais dados, o posterior converge mais perto dos valores reais dos parâmetros e, assim, a "amostragem" aleatória no esquema Thompson fica mais compactada em torno dos valores dos parâmetros que levarão à maximização do valor do parâmetro. recompensa imediata. Portanto, existe uma tendência implícita desse esquema para ser mais "orientado à pesquisa" no início, com poucas informações, e menos "orientado à pesquisa" mais tarde, quando houver muitos dados.
Agora, tendo dito isso, uma desvantagem clara do esquema de amostragem Thompson é que ele não leva em consideração o número de rodadas restantes no problema do MAB. Às vezes, esse esquema é formulado com base em um jogo com rodadas infinitas e, nesse caso, isso não é problema. No entanto, nos problemas do MAB com rodadas finitas, é preferível levar em consideração o número de rodadas restantes para diminuir a "pesquisa" à medida que o número de rodadas futuras diminui. (E, em particular, a melhor jogada na última rodada é ignorar as pesquisas completamente e apenas apostar no bandido com o maior retorno posterior esperado.) O esquema de Thompson não faz isso, portanto, ele joga de maneira finita de uma maneira isso é claramente sub-ideal em certos casos.