Muitas vezes, um analista estatístico recebe um conjunto de dados definido e é solicitado a ajustar um modelo usando uma técnica como regressão linear. Com muita frequência, o conjunto de dados é acompanhado por um aviso semelhante a "Ah, sim, nós erramos ao coletar alguns desses pontos de dados - faça o que puder".
Essa situação leva a ajustes de regressão que são fortemente impactados pela presença de valores discrepantes que podem ser dados incorretos. Dado o seguinte:
É perigoso, tanto do ponto de vista científico quanto moral, descartar dados por nenhuma outra razão, a não ser que "faça o ajuste parecer ruim".
Na vida real, as pessoas que coletaram os dados frequentemente não estão disponíveis para responder perguntas como "ao gerar esse conjunto de dados, quais dos pontos você estragou exatamente?"
Quais testes estatísticos ou regras práticas podem ser usados como base para excluir discrepantes na análise de regressão linear?
Existem considerações especiais para a regressão multilinear?