Qual é a diferença entre episódio e época no aprendizado profundo do Q?

Estou tentando entender o famoso artigo "Playing Atari with Deep Reforcement Learning" ( pdf ). Não estou claro sobre a diferença entre época e episódio . No algoritmo , o loop externo passa por episódios , enquanto na figura o eixo x é marcado como época . No contexto do aprendizado por reforço, não estou claro o que significa uma época. Uma época é um loop externo ao redor do loop do episódio? $1$ $2$

— DE ANÚNCIOS
fonte

Então ... quantos episódios fazem uma época?

— Lewen 24/10

um episódio = um uma sequência de estados, ações e recompensas, que termina com o estado terminal. Por exemplo, jogar um jogo inteiro pode ser considerado como um episódio, sendo alcançado o estado terminal quando um jogador perde / vence / empata. Em algum momento, pode-se preferir definir um episódio como vários jogos ( exemplo : "cada episódio é uma dúzia de jogos, porque os jogos atingem a pontuação de 21 para qualquer jogador").
uma época = uma passagem para frente e uma passagem para trás de todos os exemplos de treinamento, na terminologia da rede neural.

No artigo que você menciona, eles parecem ser mais flexíveis em relação ao significado de época, pois apenas definem uma época como sendo uma certa quantidade de atualizações de peso. Portanto, você pode ver uma época como sendo um loop externo em torno do loop do episódio, conforme mencionado na pergunta.

— Franck Dernoncourt
fonte