Respostas:
Para as boas respostas aqui, eu acrescentaria
Uma breve visão geral da RL : conceitos mais essenciais em um só lugar.
Outra breve visão geral , em formato de apresentação.
Ben Recht's O tour de um estrangeiro pela RL é bastante abrangente e acessível.
As equações de Bellman : centrais para toda a teoria da RL.
Gradientes de política explicados por Andrej Karpathy (mencionado em outras respostas como "pong de pixels", este é o link).
Eles mal arranham a superfície da RL, mas devem começar.
Há uma lista de reprodução do YouTube (no canal DeepMind ), cujo título é Introdução ao aprendizado por reforço , que é um curso (de 10 lições) sobre aprendizado por reforço de David Silver .
Uma pessoa que acompanhou e terminou o curso escreveu (como um comentário no Youtube):
Curso excelente. Bom ritmo, exemplos suficientes para fornecer uma boa intuição e ensinado por alguém que lidera o campo na aplicação da RL em jogos.
Antes disso, pergunte a si mesmo se você realmente deseja aprender sobre o "aprendizado por reforço". Embora exista muita publicidade sobre o aprendizado por reforço, a aplicabilidade no mundo real do aprendizado por reforço é quase inexistente. A maioria dos cursos on-line ensina muito pouco sobre aprendizado de máquina, por isso é muito melhor se aprofundar nele, em vez de prosseguir para o aprendizado por reforço. Aprendizado por aprendizado de reforço é um pouco diferente de aprender sobre técnicas de aprendizado não supervisionado / supervisionado.
Dito isto, a maneira mais rápida de obter uma boa compreensão do aprendizado por reforço é a seguinte:
Leia a postagem no blog de Andrej Karpathy "Pong from Pixels".
Assista às palestras do Deep RL Bootcamp .
Para entender a matemática por trás dessas técnicas, consulte Aprendizado por reforço de Sutton e Barto : uma introdução .
Leia artigos relevantes (jogos, etc.).
PS: Certifique-se de que você seja cuidadoso com o básico das redes neurais, pois a maioria dos trabalhos atuais em RL envolve o uso de DNNs de alguma forma ou de outra maneira como aproximadores.
Vi recentemente um curso da Microsoft no edx. É chamado 'Aprendizado por Reforço Explicado'.
Aqui está o link: https://www.edx.org/course/reinforcement-learning-explained-0 Isso não é muito abrangente, mas pelo menos fornece um bom ponto de partida.
Eu diria que este post é uma leitura obrigatória:
https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html
real-world applicability of reinforcement learning is almost non-existent
AlphaGo foi treinado com aprendizado por reforço.