O aprendizado por reforço pode ser aplicado à previsão de séries temporais?
O aprendizado por reforço pode ser aplicado à previsão de séries temporais?
Respostas:
Sim, mas em geral não é uma boa ferramenta para a tarefa, a menos que haja feedback significativo entre as previsões e o comportamento contínuo do sistema.
Para construir um problema de aprendizado por reforço (RL) onde vale a pena usar um algoritmo de controle ou predição de RL, é necessário identificar alguns componentes:
Um ambiente que está em um dos muitos estados que podem ser medidos / observados em uma sequência.
Um agente que pode observar o estado atual e executar ações na mesma sequência.
A evolução do estado na sequência deve depender de alguma combinação do estado atual e das ações tomadas, e também pode ser estocástica.
Deve haver um sinal de recompensa que o agente RL possa observar ou medir. O valor da recompensa deve depender dos mesmos fatores que a evolução do estado, mas pode depender deles de uma maneira diferente.
O caso geral da previsão de séries temporais pode ser ajustado para isso, tratando a previsão como a ação, fazendo com que a evolução do estado dependa apenas do estado atual (mais aleatoriedade) e da recompensa com base no estado e na ação. Isso permitirá que a RL seja aplicada, mas a causalidade flui apenas de uma maneira - do ambiente para o seu modelo preditivo. Dessa forma, o melhor que você pode fazer por recompensas, por exemplo, é usar alguma métrica sobre a exatidão das previsões. Consequências para previsões boas ou ruins não afetam o ambiente original. Essencialmente, você acabará envolvendo um modelo preditivo para a sequência (como uma rede neural) em uma camada RL que pode ser facilmente substituída pelo manuseio básico do conjunto de dados para um problema de aprendizado supervisionado.
Uma maneira que você poderia significativamente estender problemas de previsão de séries em problemas RL é aumentar o escopo do ambiente para incluir as decisões tomadas com base nas previsões, e o estado dos sistemas que são afectados por essas decisões. Por exemplo, se você estiver prevendo os preços das ações, inclua seu portfólio e fundos no estado. Da mesma forma, as ações deixam de ser as previsões, tornando-se comandos de compra e venda. Isso não melhorará o componente de previsão de preços (e é provável que você trate isso como um problema separado, usando ferramentas mais apropriadas - por exemplo, LSTM), mas enquadrará o problema como um problema de RL.