No aprendizado por reforço, temos uma função de recompensa que informa ao agente o desempenho de suas ações e estados atuais. Em algumas configurações gerais, a função de recompensa é uma função de três variáveis:
- Estado atual
- Ação atual no estado atual
- Próximo estado
Portanto, parece algo como:
Qual é a minha pergunta (que provavelmente é meu mal-entendido), normalmente a pessoa que usa o aprendizado por reforço decide qual é a recompensa. Por exemplo, atribui 1000 pontos para atingir a meta ou atribui -1000 pontos para travar o robô autônomo. Nesses cenários, não está claro para mim por que precisaríamos de amostras para aprender R. R é a priori especificado e, em seguida, usamos nosso agente. Direita? No entanto, sei que estou errado, porque nas anotações de Andrew Ng ele diz:
Onde ele diz que não conhecemos a função de recompensa explicitamente. Isso me parece bizarro. Sei que estou errado e adoraria que alguém me esclarecesse em quais cenários realmente precisamos aprender R com amostras.
(obviamente, as probabilidades de transição precisam ser aprendidas porque não se sabe como o ambiente fará com que nosso agente se mova a priori).