Acabei de iniciar o livro de Sutton e Barto, Aprendizagem por reforço: uma introdução , e estou curioso para saber como pensar na resposta ao Exercício 1.1: Brincadeira automática . Suponha que, em vez de jogar contra um oponente aleatório, o algoritmo de aprendizado por reforço descrito acima jogue contra si mesmo. O que você acha que aconteceria nesse caso? Aprenderia uma maneira diferente de jogar?
Pode-se também pensar nas seguintes questões secundárias, mas elas não deixaram meus pensamentos mais claros.
- Remover a parte aleatória do aprendizado mudaria a situação - isto é, sempre seguindo a política ideal e não explorando?
- Como isso dependeria de quem é o primeiro motor?