Regressão aleatória da floresta para previsão de séries temporais

Estou tentando utilizar a regressão de RF para fazer previsões sobre o desempenho de uma fábrica de papel.

Eu tenho dados minuto a minuto para as entradas (taxa e quantidade de polpa de madeira entrando etc ...), bem como para o desempenho da máquina (papel produzido, energia consumida pela máquina) e estou procurando fazer previsões em 10 minutos adiante nas variáveis de desempenho.

Eu tenho 12 meses de dados, portanto, os separamos em 11 meses para o conjunto de treinamento e o último mês para testes.

Até agora, criei 10 novos recursos com valores defasados de 1 a 10 minutos para cada uma das variáveis de desempenho e os usei, assim como as entradas, para fazer previsões. O desempenho no conjunto de testes foi muito bom (o sistema é bastante previsível), mas estou preocupado que esteja perdendo algo em minha abordagem.

Por exemplo, neste artigo , os autores declaram sua abordagem ao testar a capacidade preditiva de seu modelo de floresta aleatória:

A simulação prossegue adicionando iterativamente uma nova semana de dados, treinando um novo modelo com base nos dados atualizados e prevendo o número de surtos da semana seguinte

Como isso difere da utilização de dados "posteriores" na série temporal como teste? Devo validar meu modelo de regressão de RF com essa abordagem e também no conjunto de dados de teste? Além disso, esse tipo de abordagem 'auto-regressiva' da regressão aleatória da floresta é válida para séries temporais, e eu preciso criar tantas variáveis atrasadas se estiver interessado em uma previsão daqui a 10 minutos?

— KRS-fun
fonte

Os RFs não foram projetados e não integram explicitamente considerações temporais. Dado isso, por que usá-los para essa análise? Existem muitas metodologias de séries temporais por aí. Escolha um.

— Mike Hunter

@Johnson, pensei em tentar imitar a abordagem do artigo: tentar a RF e compará-la com o ARIMA. Você está sugerindo que isso não vale a pena e apenas utilizar o ARIMA?

— KRS-fun

@Johnson, a mecânica dos modelos autoregressivos é muito parecida com a dos modelos de regressão transversal. Uma vez que os recursos atrasados são construídos, por que não usar RFs como em um cenário transversal? Eu acho que é justo experimentá-los. Mas você está certo de que outros métodos são mais populares em séries temporais, e o OP também pode se beneficiar da exploração deles.

— Richard Hardy

Minha opinião é que os RFs são como o martelo, onde tudo se torna um prego. Com os dados descritos pelo OP, minha primeira opção seria um painel de dados ou modelo agrupado, não o ARIMA.

— Mike Hunter

Eu me deparei com isso agora e li o artigo mencionado há alguns dias. Estou comparando floresta aleatória e um LSTM para previsão de séries temporais multivariadas. Curiosamente, o LSTM se sai melhor ao incluir menos tempo nos dados de treinamento, mas à medida que adiciono mais anos de dados, os resultados de ambos os métodos estão convergindo para os verdadeiros resultados. Eu acho que isso ocorre principalmente porque os recursos fornecem informações suficientes para superar o componente temporal. Enfim, achei interessante. Além disso, nunca vi o ARIMA funcionar bem, exceto em casos sazonais muito óbvios, e o ARIMA multivariado é ...

— Hobbes

Como isso difere da utilização de dados "posteriores" na série temporal como teste?

A abordagem que você cita é chamada de previsão de "origem rotativa": a origem a partir da qual projetamos é "antecipada" e os dados de treinamento são atualizados com as novas informações disponíveis. A abordagem mais simples é a "previsão de origem única", onde escolhemos uma única origem.

A vantagem da previsão de origem rotativa é que ela simula um sistema de previsão ao longo do tempo . Na previsão de origem única, podemos escolher, por acaso, uma origem em que nosso sistema funcione muito bem (ou muito mal), o que pode nos dar uma idéia incorreta do desempenho do sistema.

Uma desvantagem da previsão de origem rotativa é seu maior requisito de dados. Se quisermos prever 10 etapas com pelo menos 50 observações históricas, podemos fazer isso de origem única com 60 pontos de dados no geral. Mas se queremos fazer 10 origens contínuas sobrepostas, precisamos de 70 pontos de dados.

A outra desvantagem é, obviamente, sua maior complexidade.

Desnecessário dizer que você também não deve usar dados "posteriores" na previsão de origem rotativa, mas somente dados anteriores à origem que você está usando em cada iteração.

Devo validar meu modelo de regressão de RF com essa abordagem e também no conjunto de dados de teste?

Se você tiver dados suficientes, uma avaliação de origem rotativa sempre inspirará mais confiança em mim do que uma única avaliação de origem, porque, esperamos, calcule a média do impacto da origem.

Além disso, esse tipo de abordagem 'auto-regressiva' da regressão aleatória da floresta é válida para séries temporais, e eu preciso criar tantas variáveis atrasadas se estiver interessado em uma previsão daqui a 10 minutos?

Sim, a previsão de rolagem vs. previsão de origem única é válida para qualquer exercício preditivo. Não depende se você usa florestas aleatórias ou ARIMA ou qualquer outra coisa.

Se você precisa de suas variáveis atrasadas, é algo que não podemos aconselhá-lo. Talvez seja melhor conversar com um especialista no assunto, que também pode sugerir outras informações. Apenas tente o seu RF com entradas atrasadas vs. sem. E também compare com benchmarks padrão como ARIMA ou ETS ou métodos ainda mais simples, que podem ser surpreendentemente difíceis de superar .

— Stephan Kolassa
fonte