Estatísticas e Big Data reinforcement-learning

3

Por que o Q-learning superestima os valores das ações?

Estou tendo dificuldade em encontrar alguma explicação sobre o motivo pelo qual o Q-learning padrão tende a superestimar os valores q (que são abordados usando o Q-learning duplo). As únicas fontes que encontrei não explicam exatamente por que essa superestimação ocorre. Por exemplo, o artigo da Wikipedia sobre Q-learning diz: …

8 machine-learning reinforcement-learning

3

Computando a atualização do gradiente de ator no algoritmo DDPG (Deep Deterministic Policy Gradient)

Esta pergunta é referente ao documento Deepmind sobre DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . A maioria (todas?) Das implementações do algoritmo DDPG que eu vi computam a atualização do gradiente na rede do ator por ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), Onde θθ\theta representa os parâmetros da rede de atores, μμ\mu representa a rede de atores, QQQ representa …

8 machine-learning neural-networks deep-learning reinforcement-learning

1

Confusão no algoritmo MADDPG de crítico de agentes múltiplos

Estou tentando entender o artigo da openAI chamado Multi-Agent Actor-Critic for Ambients Mixed Cooperative-Competitive No artigo, eles mencionam que combatem o problema da não estacionariedade do ambiente por amostragem de sub-políticas: Estou confuso sobre: (1) como a subamostragem resolveria o problema da não estacionariedade e (2) por que os agentes …

7 machine-learning deep-learning reinforcement-learning

2

O Aprendizado por Reforço é a escolha certa para pintar como Bob Ross?

Meu local de trabalho está enfrentando um desafio de código de duas semanas que envolve a produção de um algoritmo para reproduzir 100 amostras de pinturas de Bob Ross o mais próximo possível, dadas algumas restrições: As "pinturas" são enviadas como um arquivo JSON contendo uma cor de fundo e …

7 reinforcement-learning generative-models

2

Diferença entre Advantage Actor Critic e TD Actor Critic?

Eu tenho uma pergunta sobre métodos críticos de ator no aprendizado por reforço. Nestes slides ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) são explicados diferentes tipos de atores críticos. O crítico de atores Advantage e o ator de TD são mencionados no último slide: Mas quando olho para o slide "Estimando a função de …

7 reinforcement-learning

2

Algum uso de núcleos de forma não retangular em redes neurais convolucionais? Especialmente ao analisar tabuleiros de jogos

Eu tenho lido uma pilha de papéis sobre redes convolucionais e aprendizado por reforço. Lembro-me de ver um papel importante com uma forma não retangular da camada de convolução (a forma verde neste desenho bobo). Mas agora não consigo encontrá-lo. Pode ter sido algo semelhante ao artigo AlphaGo ou aprendizado …

7 references conv-neural-network reinforcement-learning

1

Aprendizagem por reforço de Sutton, jogo da velha - jogo da velha

Acabei de iniciar o livro de Sutton e Barto, Aprendizagem por reforço: uma introdução , e estou curioso para saber como pensar na resposta ao Exercício 1.1: Brincadeira automática . Suponha que, em vez de jogar contra um oponente aleatório, o algoritmo de aprendizado por reforço descrito acima jogue contra …

7 reinforcement-learning

Perguntas com a marcação «reinforcement-learning»