O site de inteligência artificial define o aprendizado fora da política e dentro da política da seguinte maneira:
"Um aluno fora da política aprende o valor da política ideal independentemente das ações do agente. Q-learning é um aluno fora da política. Um aluno fora da política aprende o valor da política sendo executada pelo agente, incluindo as etapas de exploração . "
Gostaria de pedir seu esclarecimento sobre isso, porque eles não parecem fazer nenhuma diferença para mim. Ambas as definições parecem idênticas. O que eu realmente entendi é o aprendizado sem modelo e com base em modelo, e não sei se eles têm algo a ver com os que estão em questão.
Como é possível que a política ideal seja aprendida independentemente das ações do agente? A política não é aprendida quando o agente executa as ações?