Sinalizar outliers não é uma decisão judicial (ou, em qualquer caso, não precisa ser uma). Dado um modelo estatístico, os outliers têm uma definição precisa e objetiva: são observações que não seguem o padrão da maioria dos dados. Tais observações precisam ser separadas no início de qualquer análise, simplesmente porque sua distância da maior parte dos dados garante que eles exercerão uma atração desproporcional sobre qualquer modelo multivariável ajustado pela máxima probabilidade (ou qualquer outra função de perda convexa).
É importante salientar que multivariável outlier s pode simplesmente não ser detectado com segurança utilizando resíduos a partir de um ajuste de mínimos quadrados (ou qualquer outro modelo estimado por ML, ou qualquer outra função perda convexa). Simplificando, os outliers multivariáveis só podem ser detectados com segurança usando seus resíduos de um modelo ajustado usando um procedimento de estimativa não suscetível de ser influenciado por eles.
A crença de que os extremos serão necessários nos resíduos de um ajuste clássico está em algum lugar lá em cima, com outros não-não estatísticos difíceis de desmascarar, como interpretar valores-p como medida de evidência ou inferir uma população de uma amostra tendenciosa. Exceto, talvez, que este possa ser bem mais antigo: o próprio Gauss recomendou o uso de estimador robusto, como a mediana e a louca (em vez da média clássica e dos desvios-padrão) para estimar os parâmetros de uma distribuição normal a partir de observações barulhentas na medida em que deriva do fator de consistência do louco (1)).
Para dar um exemplo visual simples com base em dados reais, considere os infames dados estelares do CYG . A linha vermelha aqui representa o ajuste menos quadrado, a linha azul o ajuste obtido usando um ajuste de regressão linear robusto. O ajuste robusto aqui é o ajuste FastLTS (2), uma alternativa ao ajuste LS que pode ser usado para detectar valores discrepantes (porque utiliza um procedimento de estimativa que garante que a influência de qualquer observação no coeficiente estimado seja limitada). O código R para reproduzi-lo é:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
É interessante notar que as quatro observações à esquerda nem sequer têm os maiores resíduos com relação ao ajuste LS e o gráfico QQ dos resíduos do ajuste LS (ou qualquer uma das ferramentas de diagnóstico derivadas deles, como a distância de Cook ou o dfbeta) não mostra nenhum deles como problemático. Esta é realmente a norma: não são necessários mais de dois valores discrepantes (independentemente do tamanho da amostra) para extrair as estimativas de LS de tal maneira que os valores discrepantes não se destacariam em um gráfico residual. Isso é chamado de efeito de mascaramentoe está bem documentado. Talvez a única coisa notável sobre o conjunto de dados do CYGstars é que ele é bivariado (portanto, podemos usar a inspeção visual para confirmar o resultado do ajuste robusto) e que na verdade há uma boa explicação para o motivo pelo qual essas quatro observações à esquerda são tão anormais.
Esta é, aliás, a exceção mais que a regra: exceto em pequenos estudos-piloto envolvendo amostras pequenas e poucas variáveis e onde a pessoa que fez a análise estatística também esteve envolvida no processo de coleta de dados, nunca experimentei um caso em que crenças anteriores sobre a identidade dos discrepantes era realmente verdadeira. A propósito, é fácil verificar isso. Independentemente de saber se os outliers foram identificados usando um algoritmo de detecção de outlier ou o instinto do pesquisador, os outliers são, por definição, observações que têm uma alavancagem anormal (ou 'puxada') sobre os coeficientes obtidos de um ajuste de LS. Em outras palavras, os valores extremos são observações cuja remoção da amostra deve impactar severamente o ajuste do LS.
Embora eu também nunca tenha experimentado isso pessoalmente, há alguns casos bem documentados na literatura em que observações marcadas como outliers por um algoritmo de detecção outlier foram mais tarde consideradas erros grosseiros ou geradas por um processo diferente. De qualquer forma, não é nem cientificamente garantido nem prudente remover apenas discrepâncias se elas puderem ser entendidas ou explicadas de alguma forma. Se uma pequena cabala de observações está tão distante do corpo principal dos dados que ela pode extrair sozinha os resultados de um procedimento estatístico por si só, é aconselhável (e devo acrescentar natural) tratá-la separadamente, independentemente de esses pontos de dados também são suspeitos por outros motivos.
(1): veja Stephen M. Stigler, The History of Statistics: The Measurement of Incerteza antes de 1900.
(2): Computando a regressão LTS para grandes conjuntos de dados (2006) PJ Rousseeuw, K. van Driessen.
(3): Métodos multivariados robustos de alta avaria (2008). Hubert M., Rousseeuw PJ e Van Aelst S. Fonte: Statist. Sci. Volume 23, 92-119.