Perguntas com a marcação «reinforcement-learning»

Para questões relacionadas ao aprendizado controlado por reforço positivo externo ou sinal de feedback negativo ou ambos, onde o aprendizado e o uso do que foi aprendido até agora ocorrem simultaneamente.




2
Como definir estados na aprendizagem por reforço?
Estou estudando o aprendizado por reforço e suas variantes. Estou começando a entender como os algoritmos funcionam e como eles se aplicam a um MDP. O que não entendo é o processo de definição dos estados do MDP. Na maioria dos exemplos e tutoriais, eles representam algo simples como um ...







2
Por que o Q-learning não converge ao usar a aproximação de função?
É garantido que o algoritmo tabular de aprendizado de Q encontre a função QQQ ideal , Q∗Q∗Q^* , desde que sejam satisfeitas as seguintes condições (condições de Robbins-Monro ) em relação à taxa de aprendizado ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty onde αt(s,a)αt(s,a)\alpha_t(s, a) significa que ...





Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.