Perguntas com a marcação «reinforcement-learning»

Um conjunto de estratégias dinâmicas pelas quais um algoritmo pode aprender on-line a estrutura de um ambiente executando ações adaptativas associadas a diferentes recompensas, a fim de maximizar as recompensas obtidas.



2
Por que não existem mecanismos de aprendizado de reforço profundo para xadrez, semelhantes ao AlphaGo?
Há muito tempo os computadores conseguem jogar xadrez usando uma técnica de "força bruta", procurando até uma certa profundidade e depois avaliando a posição. O computador AlphaGo, no entanto, usa apenas uma RNA para avaliar as posições (ele não faz nenhuma pesquisa em profundidade até onde eu sei). É possível …


2
Aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço: princípios básicos do fluxo de trabalho
Aprendizado supervisionado 1) Um humano constrói um classificador com base na entrada e saída de dados 2) Esse classificador é treinado com um conjunto de dados de treinamento 3) Esse classificador é testado com um conjunto de dados de teste 4) Implantação se a saída for satisfatória Para ser usado …


3
Análise diária de séries temporais
Estou tentando fazer análise de séries temporais e sou novo nesse campo. Eu tenho contagem diária de um evento de 2006-2009 e quero ajustar um modelo de série temporal a ele. Aqui está o progresso que eu fiz: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) O gráfico resultante que recebo é: Para verificar …


2
O que é aprendizado recorrente de reforço
Recentemente, me deparei com a palavra "Aprendizagem por Reforço Recorrente". Entendo o que é "Rede Neural Recorrente" e o que é "Aprendizagem por Reforço", mas não consegui encontrar muita informação sobre o que é uma "Aprendizagem por Reforço Recorrente". Alguém pode me explicar o que é um "aprendizado de reforço …



1
Quando escolher SARSA vs. Q Learning
SARSA e Q Learning são algoritmos de aprendizado por reforço que funcionam de maneira semelhante. A diferença mais marcante é que o SARSA está na política enquanto o Q Learning está fora da política. As regras de atualização são as seguintes: Q Aprendizado: Q ( st, umt) ← Q ( …




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.