A definição padrão de um outlier para um gráfico Box e Whisker é pontos fora do intervalo , onde e é o primeiro quartil e é o terceiro quartil dos dados. I Q R = Q 3 - Q 1 Q 1 Q 3
Qual é a base para esta definição? Com um grande número de pontos, mesmo uma distribuição perfeitamente normal retorna valores discrepantes.
Por exemplo, suponha que você comece com a sequência:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Essa sequência cria uma classificação percentual de 4000 pontos de dados.
Testar a normalidade para qnorm
esta série resulta em:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Os resultados são exatamente como o esperado: a normalidade de uma distribuição normal é normal. Criar um qqnorm(qnorm(xseq))
cria (como esperado) uma linha reta de dados:
Se um boxplot dos mesmos dados for criado, boxplot(qnorm(xseq))
produz o resultado:
O boxplot, ao contrário de shapiro.test
, ad.test
ou qqnorm
identifica vários pontos como discrepantes quando o tamanho da amostra é suficientemente grande (como neste exemplo).