Aqui você tem alguns bons livros / referências:
Clássico
Sutton RS, Barto AG. Aprendizado por Reforço: Uma Introdução. Cambridge, Massachusetts: A Bradford Book; 1998. 322 p.
O rascunho da segunda edição está disponível gratuitamente: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
Russell / Norvig Capítulo 21:
Russell SJ, Norvig P, Davis E. Inteligência artificial: uma abordagem moderna. Rio Saddle Superior, NJ: Prentice Hall; 2010.
Mais técnico
Szepesvári C. Algoritmos para aprendizado por reforço. Palestras de Síntese sobre Inteligência Artificial e Machine Learning. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. Programação dinâmica e controle ideal. 4ª edição. Belmont, Massachusetts: Athena Scientific; 2007. 1270 p.
O Capítulo 6, vol 2, está disponível gratuitamente: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Para desenvolvimentos mais recentes
Wiering M, van Otterlo M, editores. Aprendizado por Reforço. Berlim, Heidelberg: Springer Berlin Heidelberg; 2012 Disponível em: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Tomada de decisão sob incerteza: teoria e aplicação. 1 edição. Cambridge, Massachusetts: The MIT Press; 2015. 352 p.
Aprendizado de reforço multi-agente
Buşoniu L., Babuška R., Schutter BD. Aprendizado de reforço multi-agente: uma visão geral. In: Srinivasan D, Jain LC, editores. Inovações em sistemas e aplicações multiagentes - 1. Springer Berlin Heidelberg; 2010 p. 183-221. Disponível em: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM. Aprendizado de máquina multiagente: uma abordagem de reforço. Hoboken, Nova Jersey: Wiley; 2014.
Vídeos / Cursos
Eu também sugeriria o curso de David Silver no YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa