Eu pesquisei bastante sobre outliers, principalmente quando trabalhei na validação de dados de energia em Oak Ridge, de 1978 a 1980. Existem testes formais para outliers univariados para dados normais (por exemplo, teste de Grubbs e teste de proporção de Dixon). Existem testes para outliers multivariados e séries temporais. O livro de Barnett e Lewis sobre "Outliers in Statistical Data" é a Bíblia sobre outliers e cobre quase tudo.
Quando eu estava em Oak Ridge trabalhando na validação de dados, tínhamos grandes conjuntos de dados multivariados. Para outliers univariados, há uma direção para extremos (muito acima da média e muito abaixo da média). Porém, para outliers multivariados, existem muitas direções para procurar outliers. Nossa filosofia era considerar qual é o uso pretendido dos dados. Se você está tentando estimar determinados parâmetros, como uma correlação bivariada ou um coeficiente de regressão, deseja olhar na direção que proporciona o maior efeito no parâmetro de interesse. Naquela época, eu havia lido o artigo não publicado de Mallows sobre funções de influência. O uso de funções de influência para detectar discrepâncias é abordado no livro de análise multivariada da Gnanadesikan. Claro que você também pode encontrar em Barnett e Lewis.
A função de influência para um parâmetro é definida em pontos no espaço multivariado das observações e mede essencialmente a diferença entre a estimativa de parâmetro quando o ponto de dados é incluído em comparação com quando é deixado de fora. Você pode fazer essas estimativas com cada ponto de amostra, mas geralmente pode derivar uma boa forma funcional para a função de influência que fornece informações e computação mais rápida.
Por exemplo, em meu artigo no American Journal of Mathematics and Management Science, em 1982, "A função de influência e sua aplicação na validação de dados", mostro a fórmula analítica para a função de influência na correlação bivariada e que os contornos da influência constante são hipérboles. Portanto, os contornos mostram a direção no plano em que a função de influência aumenta mais rapidamente.
No meu artigo, mostro como aplicamos a função de influência para correlação bivariada com os dados do Formulário 4 da FPC sobre geração e consumo de energia. Há uma clara correlação positiva alta entre os dois e encontramos alguns valores discrepantes que foram altamente influentes na estimativa de correlação. Investigações adicionais mostraram que pelo menos um dos pontos estava errado e conseguimos corrigi-lo.
Mas um ponto importante que sempre menciono ao discutir discrepâncias é que a rejeição automática está errada. O outlier nem sempre é um erro e, às vezes, fornece informações importantes sobre os dados. Dados válidos não devem ser removidos apenas porque não estão em conformidade com a nossa teoria da realidade. Seja difícil ou não, a razão pela qual o erro ocorreu deve sempre ser investigada.
Devo mencionar que esta não é a primeira vez que discrepâncias multivariadas foram discutidas neste site. Uma busca por outliers provavelmente levaria a várias perguntas onde foram discutidos outliers multivariados. Sei que já referenciei meu artigo e esses livros antes e dei links para eles.
Além disso, quando a rejeição discrepante é discutida, muitos de nós neste site recomendamos essa opção, especialmente se for feita com base apenas em um teste estatístico. Peter Huber freqüentemente menciona uma estimativa robusta como uma alternativa à rejeição externa. A idéia é que procedimentos robustos reduzam o peso dos discrepantes, reduzindo seu efeito na estimativa sem a etapa pesada de rejeitá-los e usar um estimador não robusto.
A função de influência foi originalmente desenvolvida por Frank Hampel em sua tese de doutorado no início dos anos 1970 (acho que 1974). Sua idéia era realmente usar funções de influência para identificar estimadores que não eram robustos em relação a valores extremos e ajudar a desenvolver estimadores robustos.
Aqui está um link para uma discussão anterior sobre esse tópico, onde mencionei alguns trabalhos meus sobre a detecção de valores extremos em séries temporais usando funções de influência.