Uma medida da assimetria é baseada na mediana média - o segundo coeficiente de assimetria de Pearson .
Outra medida de assimetria é baseada nas diferenças relativas dos quartis (Q3-Q2) vs (Q2-Q1) expressas como uma razão
u = 0,25
A medida mais comum é, obviamente , a distorção do terceiro momento .
Não há razão para que essas três medidas sejam necessariamente consistentes. Qualquer um deles pode ser diferente dos outros dois.
O que consideramos "distorção" é um conceito um tanto escorregadio e mal definido. Veja aqui para mais discussão.
Se analisarmos seus dados com um qqplot normal:
[A linha marcada lá é baseada apenas nos 6 primeiros pontos, porque quero discutir o desvio dos dois últimos do padrão lá.]
Vemos que os menores 6 pontos estão quase perfeitamente na linha.
Então o sétimo ponto fica abaixo da linha (mais próximo do meio, em relação ao segundo ponto correspondente da extremidade esquerda), enquanto o oitavo ponto fica bem acima.
O sétimo ponto sugere leve inclinação para a esquerda, o último, forte para a direita. Se você ignorar um dos pontos, a impressão de assimetria é inteiramente determinada pelo outro.
Se eu tivesse que dizer que era um ou outro, eu chamaria isso de "inclinação correta", mas também apontaria que a impressão foi inteiramente devida ao efeito desse ponto muito grande. Sem ele, não há realmente o que dizer que é assimétrico. (Por outro lado, sem o sétimo ponto, ele claramente não fica inclinado.)
Devemos ter muito cuidado quando nossa impressão é inteiramente determinada por pontos únicos e pode ser revertida removendo um ponto. Isso não é muita base para continuar!
Começo com a premissa de que o que torna um outlier "periférico" é o modelo (o que é um outlier com relação a um modelo pode ser bastante típico em outro modelo).
Penso que uma observação no percentil superior de 0,01 (1/10000) de um normal (3,72 sds acima da média) é igualmente um desvio para o modelo normal, como uma observação no percentil superior de 0,01 de uma distribuição exponencial é para o modelo exponencial. (Se transformarmos uma distribuição por sua própria transformação integral de probabilidade, cada uma irá para o mesmo uniforme)
Para ver o problema de aplicar a regra boxplot até mesmo a uma distribuição com inclinação moderada à direita, simule amostras grandes de uma distribuição exponencial.
Por exemplo, se simularmos amostras do tamanho 100 a partir de um normal, calculamos a média de menos de 1 outlier por amostra. Se fizermos isso com um exponencial, obteremos uma média de cerca de 5. Mas não há base real para dizer que uma proporção mais alta de valores exponenciais é "periférica", a menos que façamos isso em comparação com (digamos) um modelo normal. Em situações particulares, podemos ter razões específicas para ter uma regra outlier de alguma forma específica, mas não existe uma regra geral, o que nos deixa com princípios gerais como o que eu comecei nesta subseção - para tratar cada modelo / distribuição sob suas próprias luzes (se um valor não é incomum em relação a um modelo, por que chamá-lo de discrepante nessa situação?)
Para passar para a pergunta no título :
Embora seja um instrumento bastante rude (e é por isso que eu olhei para o gráfico QQ), há várias indicações de distorção em um boxplot - se houver pelo menos um ponto marcado como outlier, há potencialmente (pelo menos) três:
Nesta amostra (n = 100), os pontos externos (verde) marcam os extremos e, com a mediana, sugerem assimetria esquerda. Em seguida, as cercas (azuis) sugerem (quando combinadas com a mediana) sugerem a inclinação correta. As dobradiças (quartis, marrom) sugerem assimetria esquerda quando combinadas com a mediana.
Como vemos, eles não precisam ser consistentes. O seu foco depende da situação em que você está (e possivelmente de suas preferências).
No entanto, um aviso sobre o quão bruto é o boxplot. O exemplo aqui no final - que inclui uma descrição de como gerar os dados - fornece quatro distribuições bem diferentes com o mesmo boxplot:
Como você pode ver, há uma distribuição bastante distorcida, com todos os indicadores de distorção mencionados acima, mostrando simetria perfeita.
-
Vamos considerar isso do ponto de vista "que resposta seu professor estava esperando, uma vez que este é um boxplot, que marca um ponto como um desvio?".
Ficamos com a primeira resposta "eles esperam que você avalie a assimetria excluindo esse ponto ou com ele na amostra?". Alguns a excluiriam e avaliariam a distorção do que resta, como jsk fez em outra resposta. Embora tenha contestado aspectos dessa abordagem, não posso dizer que esteja errado - isso depende da situação. Alguns o incluiriam (principalmente porque excluir 12,5% da sua amostra por causa de uma regra derivada da normalidade parece um grande passo *).
* Imagine uma distribuição populacional simétrica, exceto a cauda da extrema direita (eu construí uma delas para responder a isso - normal, mas com a cauda da extrema direita sendo Pareto -, mas não apresentei na minha resposta). Se eu tirar amostras do tamanho 8, muitas vezes 7 das observações vêm da parte de aparência normal e uma vem da cauda superior. Se excluirmos os pontos marcados como outliers de boxplot nesse caso, excluiremos o ponto que está nos dizendo que ele é realmente inclinado! Quando o fazemos, a distribuição truncada que permanece nessa situação fica distorcida e nossa conclusão seria o oposto da correta.