Estou tentando entender a aprendizagem por reforço e os processos de decisão de markov (MDP) no caso em que uma rede neural está sendo usada como aproximador de funções.
Estou tendo dificuldades com o relacionamento entre o MDP, onde o ambiente é explorado de maneira probabilística, como isso é direcionado aos parâmetros de aprendizado e como são encontradas as soluções / políticas finais.
Estou correto ao supor que, no caso do Q-learning, a rede neural atua essencialmente como um aproximador de funções para o valor q em si, tantos passos no futuro? Como isso mapeia a atualização de parâmetros via retropropagação ou outros métodos?
Além disso, depois que a rede aprender a prever a recompensa futura, como isso se encaixa no sistema em termos de tomada de decisões? Estou assumindo que o sistema final não faria probabilisticamente transições de estado.
obrigado