Estou tentando entender o famoso artigo "Playing Atari with Deep Reforcement Learning" ( pdf ). Não estou claro sobre a diferença entre época e episódio . No algoritmo , o loop externo passa por episódios , enquanto na figura o eixo x é marcado como época . No contexto do aprendizado por reforço, não estou claro o que significa uma época. Uma época é um loop externo ao redor do loop do episódio?
1
Então ... quantos episódios fazem uma época?
—
Lewen 24/10