Estatísticas e Big Data temporal-difference

Quando os métodos de Monte Carlo são preferidos aos de diferença temporal?

Ultimamente tenho pesquisado muito sobre o aprendizado por reforço. Eu segui o aprendizado de reforço de Sutton & Barto : uma introdução para a maior parte disso. Sei o que são os Processos de Decisão de Markov e como o aprendizado de Programação Dinâmica (DP), Monte Carlo e Diferença Temporal …

12 monte-carlo reinforcement-learning temporal-difference

Perguntas com a marcação «temporal-difference»