Divulgação completa: não sou estatístico nem pretendo ser um. Eu sou um humilde administrador de TI. Por favor, jogue gentil comigo. :)
Sou responsável por coletar e prever o uso do armazenamento em disco para nossa empresa. Coletamos nosso uso de armazenamento mensalmente e usamos uma regressão linear de doze meses simples para previsões (em outras palavras, apenas os doze meses anteriores de dados são considerados ao fazer uma projeção). Usamos essas informações para o planejamento de alocação e despesas de capital, por exemplo, "Com base nesse modelo, precisaremos comprar x quantidade se o armazenamento em y meses for atender às nossas necessidades". Tudo isso funciona bem o suficiente para atender às nossas necessidades.
Periodicamente, temos grandes movimentos únicos em nossos números que atrasam a previsão. Por exemplo, alguém encontra 500 GB de backups antigos que não são mais necessários e os exclui. Bom para eles para recuperar o espaço! No entanto, nossas previsões agora estão distorcidas por essa grande queda em um mês. Sempre aceitamos que uma queda como essa leva de 9 a 10 meses para sair dos modelos, mas isso pode levar muito tempo se estivermos entrando na temporada de planejamento de despesas de capital.
Gostaria de saber se existe uma maneira de lidar com essas variações únicas, de modo que os valores previstos não sejam tão impactados (por exemplo, a inclinação da linha não mude drasticamente), mas são levados em consideração (por exemplo, uma alteração única no valor y associado a um momento específico). Nossas primeiras tentativas de lidar com isso produziram alguns resultados feios (por exemplo, curvas de crescimento exponencial). Fazemos todo o nosso processamento no SQL Server, se isso importa.