Atualmente, estou procurando uma Visão geral sobre algoritmos de aprendizado por reforço e talvez uma classificação deles. Mas, ao lado de Sarsa e Q-Learning + Deep Q-Learning, não consigo encontrar nenhum algoritmo popular.
A Wikipedia fornece uma visão geral sobre diferentes métodos gerais de aprendizado por reforço, mas não há referência a diferentes algoritmos que implementam esses métodos.
Mas talvez eu esteja confundindo abordagens e algoritmos gerais e basicamente não haja uma classificação real nesse campo, como em outros campos do aprendizado de máquina. Alguém pode me dar uma breve introdução ou apenas uma referência onde eu poderia começar a ler as diferentes abordagens, as diferenças entre elas e exemplos de algoritmos que implementam essas abordagens?