O principal problema com o aprendizado de TD e DP é que suas atualizações de etapas são tendenciosas nas condições iniciais dos parâmetros de aprendizado. O processo de inicialização normalmente atualiza uma função ou consulta Q (s, a) em um valor sucessor Q (s ', a'), usando as estimativas atuais. Claramente, no início do aprendizado, essas estimativas não contêm informações de recompensas reais ou transições de estado.
Se o aprendizado funcionar como pretendido, o viés será reduzido assintoticamente em várias iterações. No entanto, o viés pode causar problemas significativos, especialmente para métodos fora da política (por exemplo, Q Learning) e ao usar aproximadores de função. É provável que essa combinação falhe em convergir que é chamada de tríade mortal em Sutton & Bart.
Os métodos de controle de Monte Carlo não sofrem esse viés, pois cada atualização é feita usando uma amostra real do que Q (s, a) deve ser. No entanto, os métodos de Monte Carlo podem sofrer alta variação, o que significa que mais amostras são necessárias para alcançar o mesmo grau de aprendizado em comparação com o TD.
Na prática, o aprendizado de TD parece aprender com mais eficiência se os problemas com a tríade mortal puderem ser superados. Resultados recentes usando a repetição da experiência e cópias encadeadas de estimadores fornecem soluções alternativas que abordam problemas - por exemplo, foi assim que o aluno DQN para jogos da Atari foi construído.
Há também um meio termo entre TD e Monte Carlo. É possível construir um método generalizado que combine trajetórias de diferentes comprimentos - do TD de uma etapa até a execução completa de episódios em Monte Carlo - e combiná-las. A variante mais comum disso é o aprendizado de TD ( ), em que é um parâmetro de (aprendizado de TD efetivamente em uma etapa) a (aprendizado de Monte Carlo efetivamente), mas com um bom recurso que pode ser usado em contínuo problemas). Normalmente, um valor entre e torna o agente de aprendizado mais eficiente - embora, como muitos hiperparâmetros, o melhor valor para usar dependa do problema.X 0 1 0 1λλ0 01 10 01 1
Se você estiver usando um método baseado em valor (em oposição a um método baseado em políticas), o aprendizado de TD geralmente é mais utilizado na prática, ou um método de combinação de TD / MC como TD (λ) pode ser ainda melhor.
Em termos de "vantagem prática" para MC? O aprendizado de Monte Carlo é conceitualmente simples, robusto e fácil de implementar, embora muitas vezes mais lento que o TD. Geralmente, eu não o usava para um mecanismo de controlador de aprendizado (a menos que com pressa de implementar algo para um ambiente simples), mas consideraria seriamente para avaliação de políticas, a fim de comparar vários agentes, por exemplo - isso se deve a medida imparcial, o que é importante para o teste.