Estou trabalhando no desenvolvimento de um modelo para prever as vendas totais de um produto. Eu tenho cerca de um ano e meio de dados de reservas, para poder fazer uma análise de séries temporais padrão. No entanto, também tenho muitos dados sobre cada 'oportunidade' (venda potencial) que foi fechada ou perdida. 'Oportunidades' progridem ao longo das etapas de um pipeline até serem fechadas ou perdidas; eles também têm dados associados sobre o potencial comprador, vendedor, histórico de interações, setor, tamanho estimado de reservas, etc.
Meu objetivo é prever o total de reservas, mas quero dar conta de todas essas informações sobre as atuais 'oportunidades', que são a verdadeira 'causa principal' das reservas.
Uma idéia que tenho é usar dois modelos diferentes em série da seguinte maneira:
Use 'oportunidades' históricas para construir um modelo que preveja as reservas resultantes de uma 'oportunidade' individual (eu provavelmente usaria florestas aleatórias ou até mesmo uma regressão linear simples e antiga para esta etapa).
Use o modelo de 1 para prever as reservas estimadas de todas as 'oportunidades' atualmente no pipeline e, em seguida, some essas estimativas com base no mês em que cada 'oportunidade' foi criada.
Use um modelo de série temporal (possivelmente ARIMA?), Usando os 1,5 anos de dados históricos mensais da série temporal E o total previsto (usando o modelo de 1) de reservas para todas as 'oportunidades' criadas naquele mês.
É certo que haveria um atraso nessas oportunidades se convertendo em reservas reais, mas o modelo de série cronológica deve ser capaz de lidar com o atraso.
Como isso soa? Eu li muito sobre séries temporais e previsões de vendas, e pelo que posso dizer, essa é uma abordagem um tanto singular. Portanto, eu realmente aprecio qualquer feedback!