Estatísticas e Big Data reinforcement-learning

2

Perguntas sobre Q-Learning usando redes neurais

Eu implementei o Q-Learning conforme descrito em, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Para aprox. Q (S, A) Eu uso uma estrutura de rede neural como a seguir, Ativação sigmóide Entradas, número de entradas + 1 para neurônios de Ação (Todas as Entradas Escaladas 0-1) Saídas, saída única. Valor Q N número de M camadas …

14 machine-learning neural-networks reinforcement-learning

1

GAM vs LOESS vs splines

Contexto : Eu quero desenhar uma linha em um gráfico de dispersão que não aparece paramétrica, portanto, eu estou usando geom_smooth()no ggplotno R. Ele retorna automaticamente, geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

Qual é a diferença entre episódio e época no aprendizado profundo do Q?

Estou tentando entender o famoso artigo "Playing Atari with Deep Reforcement Learning" ( pdf ). Não estou claro sobre a diferença entre época e episódio . No algoritmo , o loop externo passa por episódios , enquanto na figura o eixo x é marcado como época . No contexto do …

14 neural-networks terminology reinforcement-learning q-learning

1

Por que o aprendizado por reforço profundo é instável?

No artigo de 2015 da DeepMind sobre aprendizado profundo por reforço, ele afirma que "as tentativas anteriores de combinar RL com redes neurais falharam amplamente devido ao aprendizado instável". O artigo lista algumas causas disso, com base nas correlações entre as observações. Por favor, alguém poderia explicar o que isso …

13 machine-learning neural-networks deep-learning reinforcement-learning

4

Por que sempre há pelo menos uma política que é melhor que ou igual a todas as outras políticas?

Aprendizado por Reforço: Uma Introdução. Segunda edição, em andamento ., Richard S. Sutton e Andrew G. Barto (c) 2012, pp. 67-68. Resolver uma tarefa de aprendizado por reforço significa, basicamente, encontrar uma política que obtenha muitas recompensas a longo prazo. Para MDPs finitos, podemos definir com precisão uma política ideal …

13 markov-process reinforcement-learning

1

Algoritmo ideal para resolver problemas de bandidos n-armados?

Eu li sobre uma série de algoritmos para resolver problemas de bandidos n-armados como -greedy, softmax e UCB1, mas eu estou tendo alguns problemas triagem através de qual abordagem é melhor para minimizar o arrependimento.ϵϵ\epsilon Existe um algoritmo ideal conhecido para resolver o problema dos bandidos n-armados? Existe uma escolha …

13 machine-learning reinforcement-learning multiarmed-bandit

2

Por que a repetição da experiência requer algoritmo fora da política?

No artigo que apresentou o DQN " Playing Atari with Deep Reforcement Learning ", mencionou: Observe que, ao aprender pela repetição da experiência, é necessário aprender fora da política (porque nossos parâmetros atuais são diferentes daqueles usados para gerar a amostra), o que motiva a escolha do Q-learning. Eu não …

12 reinforcement-learning

2

Traduzindo o problema de aprendizado de máquina na estrutura de regressão

Suponha que eu tenha um painel de variáveis explicativas XitXitX_{it} , para i=1...Ni=1...Ni = 1 ... N , t=1...Tt=1...Tt = 1 ... T , bem como um vector de variáveis dependentes resultado binário YiTYiTY_{iT} . Então YYY é observado apenas no tempo final TTT e não em nenhum momento anterior. …

12 regression machine-learning reinforcement-learning

1

Como ajustar pesos em valores Q com aproximação de função linear

No aprendizado por reforço, a aproximação de função linear é freqüentemente usada quando grandes espaços de estado estão presentes. (Quando as tabelas de consulta se tornam inviáveis.) A forma do valor com aproximação da função linear é dada porQ -Q-Q- Q ( s , a ) = w1 1f1 1( …

12 machine-learning feature-selection reinforcement-learning

2

Quando os métodos de Monte Carlo são preferidos aos de diferença temporal?

Ultimamente tenho pesquisado muito sobre o aprendizado por reforço. Eu segui o aprendizado de reforço de Sutton & Barto : uma introdução para a maior parte disso. Sei o que são os Processos de Decisão de Markov e como o aprendizado de Programação Dinâmica (DP), Monte Carlo e Diferença Temporal …

12 monte-carlo reinforcement-learning temporal-difference

1

O que é política de distribuição no artigo da AlphaGo?

O jornal está aqui . A política de implementação ... é uma política linear softmax baseada em recursos locais rápidos, calculados de forma incremental e baseados em padrões locais ... Não entendo o que é política de distribuição e como ela se relaciona com a rede de políticas de seleção …

11 machine-learning monte-carlo reinforcement-learning games

1

Q-learning com Rede Neural como aproximação de função

Estou tentando usar uma rede neural para aproximar o valor de Q no aprendizado de Q, como em Perguntas sobre Q-Learning usando redes neurais . Conforme sugerido na primeira resposta, estou usando uma função de ativação linear para a camada de saída, enquanto ainda estou usando a função de ativação …

11 neural-networks reinforcement-learning

3

Qual a relação entre teoria dos jogos e aprendizado por reforço?

Estou interessado em (Deep) Reinforcement Learning (RL) . Antes de mergulhar neste campo, devo fazer um curso em Teoria dos Jogos (GT) ? Como o GT e o RL estão relacionados?

11 deep-learning reinforcement-learning game-theory

1

Um modelo de P (Y | X) pode ser treinado por descida de gradiente estocástico a partir de amostras não-iid de P (X) e de amostras iid de P (Y | X)?

Ao treinar um modelo parametrizado (por exemplo, para maximizar a probabilidade) por meio de descida estocástica do gradiente em alguns conjuntos de dados, geralmente é assumido que as amostras de treinamento são extraídas da distribuição de dados de treinamento. Portanto, se o objetivo é modelar uma distribuição conjunta , cada …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

Por que o algoritmo de iteração de política converge para a função ideal de política e valor?

Eu estava lendo as notas da aula de Andrew Ng sobre aprendizado por reforço e estava tentando entender por que a iteração de políticas convergiu para a função de valor ideal e a política ideal .V∗V∗V^*π∗π∗\pi^* Lembre-se de que a iteração da política é: Initialize π randomlyRepeat{Let V:=Vπ \for the …

10 reinforcement-learning policy-iteration

Perguntas com a marcação «reinforcement-learning»