Estatísticas e Big Data reinforcement-learning

1

Como exatamente calcular a função de perda profunda do Q-Learning?

Tenho uma dúvida sobre como exatamente é treinada a função de perda de uma Deep Q-Learning Network. Estou usando uma rede feedforward de 2 camadas com camada de saída linear e relu camadas ocultas. Vamos supor que eu tenho 4 ações possíveis. Portanto, a saída da minha rede para o …

10 least-squares deep-learning loss-functions reinforcement-learning q-learning

1

Visão geral sobre algoritmos de aprendizado por reforço

Atualmente, estou procurando uma Visão geral sobre algoritmos de aprendizado por reforço e talvez uma classificação deles. Mas, ao lado de Sarsa e Q-Learning + Deep Q-Learning, não consigo encontrar nenhum algoritmo popular. A Wikipedia fornece uma visão geral sobre diferentes métodos gerais de aprendizado por reforço, mas não há …

9 reinforcement-learning q-learning

2

Aprendizado por reforço em ambiente não estacionário

Q1: Existem métodos comuns ou aceitos para lidar com o ambiente não estacionário na aprendizagem por reforço em geral? P2: No meu mundo da grade, a função de recompensa muda quando um estado é visitado. A cada episódio, as recompensas são redefinidas para o estado inicial. Tudo o que eu …

9 markov-process reinforcement-learning stationarity q-learning

4

Como interpreto uma curva de sobrevivência do modelo de risco Cox?

Como você interpreta uma curva de sobrevivência a partir do modelo de risco proporcional cox? Neste exemplo de brinquedo, suponha que tenhamos um modelo de risco proporcional ao cox na agevariável dos kidneydados e gere a curva de sobrevivência. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Por exemplo, …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Qual a eficiência do Q-learning com redes neurais quando há uma unidade de saída por ação?

Antecedentes: Estou usando a aproximação do valor Q da Rede Neural na minha tarefa de aprendizado por reforço. A abordagem é exatamente a mesma descrita nesta pergunta , porém a pergunta em si é diferente. Nesta abordagem, o número de saídas é o número de ações que podemos executar. E, …

9 machine-learning neural-networks reinforcement-learning q-learning

5

Por que (e quando) é preciso aprender a função de recompensa com amostras no aprendizado por reforço?

No aprendizado por reforço, temos uma função de recompensa que informa ao agente o desempenho de suas ações e estados atuais. Em algumas configurações gerais, a função de recompensa é uma função de três variáveis: Estado atualSSS Ação atual no estado atualπ(s)=aπ(s)=a\pi(s) = a Próximo estadoS′S′S' Portanto, parece algo como: …

9 machine-learning reinforcement-learning

2

Algum código de exemplo do algoritmo REINFORCE proposto por Williams?

Alguém conhece o exemplo de um algoritmo proposto por Williams no artigo "Uma classe de algoritmos de estimativa de gradiente para aprendizado por reforço em redes neurais" http://incompleteideas.net/sutton/williams-92.pdf

9 reinforcement-learning

1

Função de perda crítico-ator na aprendizagem por reforço

No aprendizado crítico-ator para aprendizado reforçado, eu entendo que você tem um "ator" que está decidindo a ação a ser tomada e um "crítico" que avalia essas ações; no entanto, estou confuso sobre o que a função de perda está realmente dizendo mim. Na página 274 do livro de Sutton …

9 machine-learning reinforcement-learning actor-critic

2

Confiança superior limitada no aprendizado de máquina

Me deparei com a fórmula para obter limites superiores de confiança no problema dos bandidos armados com k: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} onde é a quantidade de amostras que temos para esse bandido específico e é a quantidade total de amostras que temos de todos os bandidos. O mesmo algoritmo é usado …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

2

Uma política é sempre determinística no aprendizado por reforço?

No aprendizado por reforço, uma política é sempre determinística ou é uma distribuição de probabilidade entre as ações (das quais provamos)? Se a política é determinística, por que não é a função value, definida em um determinado estado para uma determinada política seguinte maneiraππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, …

8 reinforcement-learning deterministic-policy stochastic-policy

3

Aprendizado por Reforço de Dados Históricos

Estou trabalhando para aprender a política ideal de comunicação para os clientes (quais notificações enviar, quantas enviar e quando enviar). Tenho dados históricos de notificações passadas enviadas (com timestamps) e seus desempenhos. Estava tentando aplicar a RL a esse problema para aprender a política ideal. No entanto, uma restrição importante …

8 reinforcement-learning

3

Por que não há probabilidade de transição no Q-Learning (aprendizado por reforço)?

No aprendizado por reforço, nosso objetivo é otimizar a função de valor de estado ou função de valor de ação, definidas da seguinte forma: Vπs= ∑ p ( s′| s,π( s ) ) [ r ( s′| s,π( s ) ) + γVπ( s′) ] = Eπ[ r ( s′|s,a)+γVπ(s′)|s0= …

8 reinforcement-learning q-learning

3

Encontre distribuição e transforme em distribuição normal

Eu tenho dados que descrevem com que frequência um evento ocorre durante uma hora ("número por hora", nph) e quanto tempo os eventos duram ("duração em segundos por hora", dph). Estes são os dados originais: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Diferença entre programação dinâmica e aprendizagem por diferença temporal na aprendizagem por reforço

No aprendizado por reforço, qual é a diferença entre programação dinâmica e aprendizado por diferença temporal?

8 reinforcement-learning

2

O planejamento no Dyna-Q é uma forma de repetição da experiência?

No livro de Richard Sutton sobre RL (2ª edição) , ele apresenta o algoritmo Dyna-Q, que combina planejamento e aprendizado. Na parte planeamento do algoritmo, o Dyna-agente aleatoriamente amostras de n pares de estado-ação visto anteriormente pelo agente, alimenta este par no seu modelo de ambiente e recebe um próximo …

8 reinforcement-learning q-learning

Perguntas com a marcação «reinforcement-learning»