Sua melhor opção para usar a regressão para encontrar valores discrepantes é usar a regressão robusta.
A regressão comum pode ser impactada por discrepantes de duas maneiras:
x¯
Segundo, uma observação "periférica" no espaço x é uma observação influente - pode puxar o ajuste da linha em sua direção. Se estiver suficientemente longe, a linha passará pelo ponto influente:
No gráfico da esquerda, há um ponto que é bastante influente, e puxa a linha bastante do grande volume de dados. No enredo certo, foi movido ainda mais para longe - e agora a linha passa pelo ponto. Quando o valor x é extremo, à medida que você move esse ponto para cima e para baixo, a linha se move com ele, passando pela média dos outros pontos e pelo único ponto influente.
Um ponto influente que seja perfeitamente consistente com o restante dos dados pode não ser um problema tão grande, mas um ponto que está longe de ser uma linha no restante dos dados fará com que a linha se ajuste a ele, e não aos dados.
Se você observar o gráfico do lado direito, a linha vermelha - a linha de regressão de mínimos quadrados - não mostra o ponto extremo como um valor externo - seu resíduo é 0. Em vez disso, os grandes resíduos da linha de mínimos quadrados estão em a parte principal dos dados!
Isso significa que você pode perder completamente um outlier .
Pior ainda, com regressão múltipla, um erro externo no espaço x pode não parecer particularmente incomum para nenhuma variável x única. Se houver uma possibilidade de tal argumento, é potencialmente uma coisa muito arriscada usar a regressão de mínimos quadrados.
Regressão robusta
Se você ajustar uma linha robusta - em particular uma robusta a outliers influentes - como a linha verde no segundo gráfico -, o outlier terá um resíduo muito grande.
Em que caso, você tem alguma esperança de identificar os outliers - eles vão ser pontos que não são - em certo sentido - perto da linha.
Remoção de outliers
Você certamente pode usar uma regressão robusta para identificar e, assim, remover discrepâncias.
Mas uma vez que você tenha um ajuste de regressão robusto, um que já não seja muito afetado pelos valores discrepantes, você não precisará necessariamente removê-los - você já possui um modelo adequado.