Diferença entre programação dinâmica e aprendizagem por diferença temporal na aprendizagem por reforço


8

No aprendizado por reforço, qual é a diferença entre programação dinâmica e aprendizado por diferença temporal?

Respostas:


9

O DP resolve a política ou função de valor ideal por recursão. Requer conhecimento do processo de decisão de markov (MDP) ou de um modelo do mundo para que as recursões possam ser realizadas. É tipicamente agrupado em "planejamento" ao invés de "aprendizado", já que você conhece o MDP e precisa descobrir o que fazer (de maneira ideal).

O TD é livre de modelo: não requer conhecimento de um modelo do mundo. É iterativo, baseado em simulação e aprendido por bootstrapping, ou seja, o valor de um estado ou ação é estimado usando os valores de outros estados ou ações.

Para mais informações, consulte:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.