Eu não recomendaria a abordagem usada por Neal et al. . Seus dados são exclusivos por dois motivos:
Eles estão trabalhando com dados de alimentos, que geralmente são mais densos e mais estáveis do que outros dados de produtos de varejo. Um determinado local estará vendendo dezenas de caixas de leite ou pacotes de ovos por semana e estará vendendo esses mesmos produtos há décadas, em comparação com peças de moda ou de carro, onde não é incomum ter vendas de um único item a cada 3 ou 4 semanas, e dados disponíveis por apenas um ano ou dois.
Eles estão prevendo para armazéns e não lojas. Um único armazém abrange várias lojas, portanto, seus dados são ainda mais densos que a média. De fato, um armazém é normalmente usado como um nível natural de agregação / agrupamento para lojas, portanto, eles já estão essencialmente realizando um agrupamento de dados da loja.
Devido à natureza de seus dados, eles podem modelar séries temporais individuais diretamente. Mas os dados da maioria dos varejistas seriam muito escassos no nível individual de sku / loja para que eles pudessem obter isso.
Como disse o ciclista, esse problema geralmente é abordado usando previsões hierárquicas ou de vários escalões . Todos os pacotes de previsão de demanda comercial usam alguma forma de previsão hierárquica
A idéia é agrupar produtos e lojas em produtos e regiões semelhantes, para os quais as previsões agregadas são geradas e usadas para determinar a sazonalidade e a tendência gerais, que são então distribuídas de maneira reconciliada usando uma abordagem de cima para baixo com as previsões de linha de base geradas para cada sku individual. / combinação de loja.
Além do desafio mencionado pelo ciclista, um problema maior é que encontrar os agrupamentos ideais de produtos e lojas não é uma tarefa trivial, que exige uma combinação de experiência no domínio e análise empírica. Os produtos e as lojas são geralmente agrupados em hierarquias elaboradas (por departamento, fornecedor, marca, etc. para produtos, por região, clima, armazém, etc ... por local), que são alimentados com o algoritmo de previsão juntamente com as vendas históricas dados em si.
Abordando comentários de meraxes
Que tal os métodos usados na Competição Corporativa de Previsão de Vendas de Mercearia Favorita, onde eles permitem que os modelos aprendam com o histórico de vendas de vários produtos (possivelmente não relacionados), sem fazer nenhum agrupamento explícito? Ainda é uma abordagem válida?
Eles estão fazendo o agrupamento implicitamente usando loja, item, família, classe, cluster como recursos categóricos.
Acabei de ler um pouco da seção de Rob Hyndman sobre previsão hierárquica. Parece-me que fazer uma abordagem de cima para baixo fornece previsões confiáveis para níveis agregados; no entanto, possui a enorme desvantagem de perda de informações devido à agregação que pode afetar as previsões para os nós de nível inferior. Também pode ser "incapaz de capturar e tirar proveito das características individuais das séries, como dinâmica do tempo, eventos especiais".
Três pontos em relação a isso:
- A desvantagem para a qual ele aponta depende do agrupamento dos dados. Se você agregar todos os produtos e lojas, sim, isso seria um problema. Por exemplo, agregar todas as lojas de todas as regiões prejudicaria qualquer sazonalidade específica da região. Mas você deve agregar apenas o agrupamento relevante e, como apontei, isso exigirá algumas análises e experimentações para ser encontrado.
- No caso específico da demanda de varejo, não estamos preocupados em "perder informações devido à agregação", porque frequentemente as séries temporais nos nós inferiores (ou seja, SKU / Loja) contêm muito pouca informação, e é por isso que as agregamos até as mais altas níveis em primeiro lugar.
- Para eventos específicos de SKU / loja, a maneira como abordamos isso em minha equipe é remover os efeitos específicos do evento antes de gerar uma previsão e adicioná-los novamente mais tarde, depois que a previsão for gerada. Veja aqui para detalhes.