Estou tentando entender a abordagem do gradiente de política para resolver o problema da cartpole . Nesta abordagem, estamos expressando o gradiente da perda referente a cada parâmetro de nossa política como uma expectativa da soma dos gradientes de nosso gradiente de política para todas as ações em uma sequência, ponderada pela soma das recompensas com desconto nessa sequência:
e estimamos isso usando uma média empírica em todas as amostras de um episódio - o que faz sentido intuitivamente.
Mas a parte menos intuitiva é que vi uma prática comum para normalizar vantagens entre os episódios em várias implementações (e, de fato, funciona melhor). Então, depois de calcularem, eles não usariam diretamente a vantagem, mas a normalizariam; por exemplo, aqui eles fazem depois de cada episódio:
discounted_epr = discount_rewards(epr)
discounted_epr -= np.mean(discounted_epr)
discounted_epr /= np.std(discounted_epr)
qual é a justificativa para isso - tanto na teoria quanto na intuição? Parece-me que, se um episódio é longo e, como tal, possui grandes vantagens, vale a pena aprender mais com esse episódio do que com um episódio de 3 movimentos. o que estou perdendo?