O papel da "limpeza de dados" é identificar quando "nossas leis (modelo) não funcionam". Ajustar para Outliers ou pontos de dados anormais serve para permitir "estimativas robustas" dos parâmetros no modelo atual que estamos entretendo. Esses "valores extremos", se não tratados, permitem uma distorção indesejada nos parâmetros do modelo, pois a estimativa é "orientada para explicar esses pontos de dados" que "não estão se comportando de acordo com nosso modelo hipotético". Em outras palavras, há muito retorno em termos de soma de quadrados explicada, concentrando-se nos "bandidos". Os pontos empiricamente identificados que requerem limpeza devem ser cuidadosamente examinados para potencialmente desenvolver / sugerir fatores de causa que não estão no modelo atual.
Como avaliar o efeito da intervenção em um estado versus outro usando a taxa anual de mortalidade de casos?
Fazer ciência é procurar padrões repetidos.
Detectar anomalias é identificar valores que não seguem padrões repetidos. De que outra forma você saberia que um ponto violava esse modelo? De fato, o processo de crescimento, compreensão, descoberta e análise de outliers deve ser iterativo. Este não é um pensamento novo.
Sir Frances Bacon, escrevendo no Novum Organum cerca de 400 anos atrás, disse: “Erros da natureza, esportes e monstros corrigem o entendimento em relação às coisas comuns e revelam formas gerais. Pois quem conhece os caminhos da natureza notará mais facilmente seus desvios; e, por outro lado, quem sabe as desvios de rebanho descreverão com mais precisão seus caminhos. ”
Mudamos nossas regras observando quando as regras atuais falham.
Se os valores discrepantes identificados são todos pulsos e têm efeitos semelhantes (tamanho), sugerimos o seguinte (citado em outro pôster)
Uma maneira "rápida e suja" de fazer isso em um cenário de regressão é incluir um indicador para os anos / períodos epidêmicos como uma variável regressora. Isso fornecerá uma estimativa média do efeito das epidemias (e pressupõe implicitamente que o efeito seja afetado). o mesmo para cada epidemia. No entanto, essa abordagem funciona apenas para descrever o efeito, porque na previsão sua variável de regressão é desconhecida (você não sabe quais períodos no futuro serão epidêmicos). "
Isso se o curso exigir que as anomalias individuais (anos de pulso) tenham efeitos semelhantes. Se eles diferirem, uma variável do portmanteau descrita acima estaria incorreta.