Perguntas com a marcação «reinforcement-learning»

Um conjunto de estratégias dinâmicas pelas quais um algoritmo pode aprender on-line a estrutura de um ambiente executando ações adaptativas associadas a diferentes recompensas, a fim de maximizar as recompensas obtidas.


1
Visão geral sobre algoritmos de aprendizado por reforço
Atualmente, estou procurando uma Visão geral sobre algoritmos de aprendizado por reforço e talvez uma classificação deles. Mas, ao lado de Sarsa e Q-Learning + Deep Q-Learning, não consigo encontrar nenhum algoritmo popular. A Wikipedia fornece uma visão geral sobre diferentes métodos gerais de aprendizado por reforço, mas não há …


4
Como interpreto uma curva de sobrevivência do modelo de risco Cox?
Como você interpreta uma curva de sobrevivência a partir do modelo de risco proporcional cox? Neste exemplo de brinquedo, suponha que tenhamos um modelo de risco proporcional ao cox na agevariável dos kidneydados e gere a curva de sobrevivência. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Por exemplo, …


5
Por que (e quando) é preciso aprender a função de recompensa com amostras no aprendizado por reforço?
No aprendizado por reforço, temos uma função de recompensa que informa ao agente o desempenho de suas ações e estados atuais. Em algumas configurações gerais, a função de recompensa é uma função de três variáveis: Estado atualSSS Ação atual no estado atualπ(s)=aπ(s)=a\pi(s) = a Próximo estadoS′S′S' Portanto, parece algo como: …



2
Confiança superior limitada no aprendizado de máquina
Me deparei com a fórmula para obter limites superiores de confiança no problema dos bandidos armados com k: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} onde é a quantidade de amostras que temos para esse bandido específico e é a quantidade total de amostras que temos de todos os bandidos. O mesmo algoritmo é usado …

2
Uma política é sempre determinística no aprendizado por reforço?
No aprendizado por reforço, uma política é sempre determinística ou é uma distribuição de probabilidade entre as ações (das quais provamos)? Se a política é determinística, por que não é a função value, definida em um determinado estado para uma determinada política seguinte maneiraππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, …

3
Aprendizado por Reforço de Dados Históricos
Estou trabalhando para aprender a política ideal de comunicação para os clientes (quais notificações enviar, quantas enviar e quando enviar). Tenho dados históricos de notificações passadas enviadas (com timestamps) e seus desempenhos. Estava tentando aplicar a RL a esse problema para aprender a política ideal. No entanto, uma restrição importante …


3
Encontre distribuição e transforme em distribuição normal
Eu tenho dados que descrevem com que frequência um evento ocorre durante uma hora ("número por hora", nph) e quanto tempo os eventos duram ("duração em segundos por hora", dph). Estes são os dados originais: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.