Diferença entre programação dinâmica e aprendizagem por diferença temporal na aprendizagem por reforço

No aprendizado por reforço, qual é a diferença entre programação dinâmica e aprendizado por diferença temporal?

reinforcement-learning

— tdc
fonte

O DP resolve a política ou função de valor ideal por recursão. Requer conhecimento do processo de decisão de markov (MDP) ou de um modelo do mundo para que as recursões possam ser realizadas. É tipicamente agrupado em "planejamento" ao invés de "aprendizado", já que você conhece o MDP e precisa descobrir o que fazer (de maneira ideal).

O TD é livre de modelo: não requer conhecimento de um modelo do mundo. É iterativo, baseado em simulação e aprendido por bootstrapping, ou seja, o valor de um estado ou ação é estimado usando os valores de outros estados ou ações.

Para mais informações, consulte:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html