Estatísticas e Big Data q-learning

4

Por que o Q-Learning usa epsilon-greedy durante os testes?

No artigo da DeepMind sobre o Deep Q-Learning para videogames da Atari ( aqui ), eles usam um método épsilon-ganancioso para exploração durante o treinamento. Isso significa que, quando uma ação é selecionada no treinamento, ela é escolhida como a ação com o valor q mais alto ou uma ação …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Por que a letra Q foi escolhida no Q-learning?

Por que a letra Q foi escolhida em nome do Q-learning? A maioria das letras é escolhida como uma abreviação, como ππ\pi política e vvv significa valor. Mas não acho que Q seja uma abreviação de nenhuma palavra.

17 terminology reinforcement-learning history q-learning

1

Qual é a diferença entre episódio e época no aprendizado profundo do Q?

Estou tentando entender o famoso artigo "Playing Atari with Deep Reforcement Learning" ( pdf ). Não estou claro sobre a diferença entre época e episódio . No algoritmo , o loop externo passa por episódios , enquanto na figura o eixo x é marcado como época . No contexto do …

14 neural-networks terminology reinforcement-learning q-learning

1

Como exatamente calcular a função de perda profunda do Q-Learning?

Tenho uma dúvida sobre como exatamente é treinada a função de perda de uma Deep Q-Learning Network. Estou usando uma rede feedforward de 2 camadas com camada de saída linear e relu camadas ocultas. Vamos supor que eu tenho 4 ações possíveis. Portanto, a saída da minha rede para o …

10 least-squares deep-learning loss-functions reinforcement-learning q-learning

1

Visão geral sobre algoritmos de aprendizado por reforço

Atualmente, estou procurando uma Visão geral sobre algoritmos de aprendizado por reforço e talvez uma classificação deles. Mas, ao lado de Sarsa e Q-Learning + Deep Q-Learning, não consigo encontrar nenhum algoritmo popular. A Wikipedia fornece uma visão geral sobre diferentes métodos gerais de aprendizado por reforço, mas não há …

9 reinforcement-learning q-learning

2

Aprendizado por reforço em ambiente não estacionário

Q1: Existem métodos comuns ou aceitos para lidar com o ambiente não estacionário na aprendizagem por reforço em geral? P2: No meu mundo da grade, a função de recompensa muda quando um estado é visitado. A cada episódio, as recompensas são redefinidas para o estado inicial. Tudo o que eu …

9 markov-process reinforcement-learning stationarity q-learning

4

Como interpreto uma curva de sobrevivência do modelo de risco Cox?

Como você interpreta uma curva de sobrevivência a partir do modelo de risco proporcional cox? Neste exemplo de brinquedo, suponha que tenhamos um modelo de risco proporcional ao cox na agevariável dos kidneydados e gere a curva de sobrevivência. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Por exemplo, …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Qual a eficiência do Q-learning com redes neurais quando há uma unidade de saída por ação?

Antecedentes: Estou usando a aproximação do valor Q da Rede Neural na minha tarefa de aprendizado por reforço. A abordagem é exatamente a mesma descrita nesta pergunta , porém a pergunta em si é diferente. Nesta abordagem, o número de saídas é o número de ações que podemos executar. E, …

9 machine-learning neural-networks reinforcement-learning q-learning

3

Por que não há probabilidade de transição no Q-Learning (aprendizado por reforço)?

No aprendizado por reforço, nosso objetivo é otimizar a função de valor de estado ou função de valor de ação, definidas da seguinte forma: Vπs= ∑ p ( s′| s,π( s ) ) [ r ( s′| s,π( s ) ) + γVπ( s′) ] = Eπ[ r ( s′|s,a)+γVπ(s′)|s0= …

8 reinforcement-learning q-learning

2

O planejamento no Dyna-Q é uma forma de repetição da experiência?

No livro de Richard Sutton sobre RL (2ª edição) , ele apresenta o algoritmo Dyna-Q, que combina planejamento e aprendizado. Na parte planeamento do algoritmo, o Dyna-agente aleatoriamente amostras de n pares de estado-ação visto anteriormente pelo agente, alimenta este par no seu modelo de ambiente e recebe um próximo …

8 reinforcement-learning q-learning

Perguntas com a marcação «q-learning»