Perguntas com a marcação «reinforcement-learning»

Um conjunto de estratégias dinâmicas pelas quais um algoritmo pode aprender on-line a estrutura de um ambiente executando ações adaptativas associadas a diferentes recompensas, a fim de maximizar as recompensas obtidas.


3
Computando a atualização do gradiente de ator no algoritmo DDPG (Deep Deterministic Policy Gradient)
Esta pergunta é referente ao documento Deepmind sobre DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . A maioria (todas?) Das implementações do algoritmo DDPG que eu vi computam a atualização do gradiente na rede do ator por ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), Onde θθ\theta representa os parâmetros da rede de atores, μμ\mu representa a rede de atores, QQQ representa …



2
Diferença entre Advantage Actor Critic e TD Actor Critic?
Eu tenho uma pergunta sobre métodos críticos de ator no aprendizado por reforço. Nestes slides ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) são explicados diferentes tipos de atores críticos. O crítico de atores Advantage e o ator de TD são mencionados no último slide: Mas quando olho para o slide "Estimando a função de …

2
Algum uso de núcleos de forma não retangular em redes neurais convolucionais? Especialmente ao analisar tabuleiros de jogos
Eu tenho lido uma pilha de papéis sobre redes convolucionais e aprendizado por reforço. Lembro-me de ver um papel importante com uma forma não retangular da camada de convolução (a forma verde neste desenho bobo). Mas agora não consigo encontrá-lo. Pode ter sido algo semelhante ao artigo AlphaGo ou aprendizado …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.