Inteligência artificial reinforcement-learning

6

Qual é a diferença entre o aprendizado de reforço sem modelo e com base em modelo?

Qual é a diferença entre o aprendizado de reforço sem modelo e com base em modelo? Parece-me que qualquer aluno sem modelo, aprendendo por tentativa e erro, poderia ser reformulado como baseado em modelo. Nesse caso, quando os alunos sem modelo seriam apropriados?

29 reinforcement-learning comparison model-based model-free

1

Qual é a relação entre os métodos Q-learning e gradientes de políticas?

Tanto quanto eu entendo, Q-learning e gradientes de políticas (PG) são as duas principais abordagens usadas para resolver problemas de RL. Enquanto o Q-learning visa predizer a recompensa de uma determinada ação executada em um determinado estado, os gradientes das políticas predizem diretamente a própria ação. No entanto, ambas as …

21 reinforcement-learning q-learning policy-gradients comparison

4

Como lidar com movimentos inválidos no aprendizado por reforço?

Eu quero criar uma IA que possa jogar cinco em linha / gomoku. Como mencionei no título, quero usar o aprendizado por reforço para isso. Eu uso o método gradiente de política , ou seja, REFORÇAR, com a linha de base. Para a aproximação das funções de valor e política, …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

Como definir estados na aprendizagem por reforço?

Estou estudando o aprendizado por reforço e suas variantes. Estou começando a entender como os algoritmos funcionam e como eles se aplicam a um MDP. O que não entendo é o processo de definição dos estados do MDP. Na maioria dos exemplos e tutoriais, eles representam algo simples como um …

14 reinforcement-learning

2

O que é eficiência da amostra e como a amostragem importante pode ser usada para alcançá-la?

Por exemplo, o título deste artigo é: "Exemplo de crítica eficiente de ator com repetição de experiência". O que é eficiência da amostra e como a amostragem importante pode ser usada para alcançá-la?

14 reinforcement-learning statistical-ai importance-sampling

1

Por que você não vê camadas de evasão nos exemplos de aprendizado por reforço?

Eu estive estudando o aprendizado por reforço e, especificamente, brincando com a criação de meus próprios ambientes para usar com o OpenAI Gym AI. Estou usando agentes do projeto stable_baselines para testar com ele. Uma coisa que notei em praticamente todos os exemplos de RL é que nunca parece haver …

13 machine-learning reinforcement-learning overfitting dropout

1

Quando devo usar o Aprendizado por reforço contra o controle PID?

Ao projetar soluções para problemas como o Lunar Lander no OpenAIGym , o Aprendizado por Reforço é um meio tentador de fornecer ao agente o controle adequado da ação, a fim de pousar com sucesso. Mas quais são as instâncias em que algoritmos do sistema de controle, como controladores PID …

12 reinforcement-learning ai-design control-theory

3

Existem outras aplicações de aprendizado por reforço além dos jogos?

Existe uma maneira de ensinar aprendizado reforçado em aplicativos que não sejam jogos? Os únicos exemplos que posso encontrar na Internet são de agentes de jogos. Entendo que os VNCs controlam a entrada dos jogos através da rede de reforço. É possível configurar isso com um software CAD, por exemplo?

12 reinforcement-learning applications

1

Por que o DQN requer duas redes diferentes?

Eu estava passando por essa implementação do DQN e vejo que nas linhas 124 e 125 foram inicializadas duas redes Q diferentes. Pelo meu entendimento, acho que uma rede prediz a ação apropriada e a segunda rede prediz os valores Q de destino para encontrar o erro de Bellman. Por …

12 reinforcement-learning q-learning dqn

3

Como implementar um espaço de ação restrito no aprendizado por reforço?

Estou codificando um modelo de aprendizado por reforço com um agente de PPO, graças à muito boa biblioteca Tensorforce , construída sobre o Tensorflow. A primeira versão era muito simples e agora estou mergulhando em um ambiente mais complexo, onde nem todas as ações estão disponíveis a cada etapa. Digamos …

12 deep-learning reinforcement-learning

2

Por que o Q-learning não converge ao usar a aproximação de função?

É garantido que o algoritmo tabular de aprendizado de Q encontre a função QQQ ideal , Q∗Q∗Q^* , desde que sejam satisfeitas as seguintes condições (condições de Robbins-Monro ) em relação à taxa de aprendizado ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty onde αt(s,a)αt(s,a)\alpha_t(s, a) significa que …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

3

Por que a taxa de desconto no algoritmo REINFORCE aparece duas vezes?

Eu estava lendo o livro Reinforcement Learning: An Introduction, de Richard S. Sutton e Andrew G. Barto (rascunho completo, 5 de novembro de 2017). Na página 271, é apresentado o pseudocódigo do método episódico de política de gradiente de Monte-Carlo. Olhando para esse pseudocódigo, não consigo entender por que parece …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

Como manter um pesquisador atualizado na comunidade ML / RL?

Como aluno que deseja trabalhar no aprendizado de máquina, gostaria de saber como é possível iniciar meus estudos e como segui-lo para manter-me atualizado. Por exemplo, estou disposto a trabalhar nos problemas de RL e MAB, mas existem grandes literaturas sobre esses tópicos. Além disso, esses tópicos são estudados por …

11 machine-learning reinforcement-learning research markov-decision-process

1

Como os gradientes de políticas podem ser aplicados no caso de várias ações contínuas?

O Trusted Region Policy Optimization (TRPO) e o Proximal Policy Optimization (PPO) são dois algoritmos avançados de gradientes de políticas. Ao usar uma única ação contínua, normalmente, você usaria alguma distribuição de probabilidade (por exemplo, Gaussiana) para a função de perda. A versão aproximada é: L ( θ ) = …

11 deep-learning reinforcement-learning trpo

3

A política ideal é sempre estocástica se o ambiente também é estocástico?

A política ideal é sempre estocástica (ou seja, um mapa dos estados para uma distribuição de probabilidade sobre as ações) se o ambiente também é estocástico? Intuitivamente, se o ambiente for determinístico (ou seja, se o agente estiver em um estado e tomar ação , então o próximo estado será …

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

Perguntas com a marcação «reinforcement-learning»