Estou tentando utilizar a regressão de RF para fazer previsões sobre o desempenho de uma fábrica de papel.
Eu tenho dados minuto a minuto para as entradas (taxa e quantidade de polpa de madeira entrando etc ...), bem como para o desempenho da máquina (papel produzido, energia consumida pela máquina) e estou procurando fazer previsões em 10 minutos adiante nas variáveis de desempenho.
Eu tenho 12 meses de dados, portanto, os separamos em 11 meses para o conjunto de treinamento e o último mês para testes.
Até agora, criei 10 novos recursos com valores defasados de 1 a 10 minutos para cada uma das variáveis de desempenho e os usei, assim como as entradas, para fazer previsões. O desempenho no conjunto de testes foi muito bom (o sistema é bastante previsível), mas estou preocupado que esteja perdendo algo em minha abordagem.
Por exemplo, neste artigo , os autores declaram sua abordagem ao testar a capacidade preditiva de seu modelo de floresta aleatória:
A simulação prossegue adicionando iterativamente uma nova semana de dados, treinando um novo modelo com base nos dados atualizados e prevendo o número de surtos da semana seguinte
Como isso difere da utilização de dados "posteriores" na série temporal como teste? Devo validar meu modelo de regressão de RF com essa abordagem e também no conjunto de dados de teste? Além disso, esse tipo de abordagem 'auto-regressiva' da regressão aleatória da floresta é válida para séries temporais, e eu preciso criar tantas variáveis atrasadas se estiver interessado em uma previsão daqui a 10 minutos?