gráfico de caixa em R: Os valores extremos contam quando os quantis estão sendo determinados?


8

Eu tenho um conjunto de dados unidimensional e uso a boxplotfunção para criar um gráfico de caixa. Então eu posso ver que tenho alguns outliers.

Os outliers contam quando os quantis estão sendo determinados?

Existe uma maneira certa / errada ou ambas as formas estão corretas, desde que tenhamos certeza sobre qual método foi usado? Se sim, como R faz isso?


6
Em parte, é uma questão de uso do inglês, mas os programas boxplot não determinam valores extremos. No máximo, eles plotam pontos que devem ser pensados ​​e podem ser discrepantes (univariados).
Nick Cox

1
Para uma amostra grande de uma distribuição exponencial, cerca de da amostra pode aparecer além do bigode superior. Se você fosse para excluir estes, você poderia começar quantiles substancialmente erradas4.8%
Henry

Respostas:


12

R - como muitos, mas nem todos os programas - usa principalmente a definição * de Tukey de como desenhar um boxplot.

A amostra original inteira é usada para calcular as dobradiças (onde as extremidades da caixa são desenhadas).

As dobradiças são muito parecidas com os quartis (você poderia dizer que são uma maneira específica de calcular os quartis superior e inferior que diferem um pouco das definições mais comuns de quartis - embora existam várias definições diferentes de quartis de amostra; de fato, R oferece nove cálculos distintos de quartis, sem contar as dobradiças).

A dobradiça superior está na mediana da metade superior dos dados (a metade superior inclui a mediana da amostra original, se for um ponto de dados) e a dobradiça inferior está na mediana da metade inferior (que também inclui a mediana da amostra original se estivesse em um ponto de dados):

Diagrama que ilustra o cálculo das dobradiças

Assim, por exemplo, com 6 observações, as dobradiças são a segunda maior e a quinta maior observação (3 pontos em cada metade). Com 9 observações, as dobradiças são a 3ª e a 8ª maiores (5 pontos em cada metade, a mediana chegando nas duas partes). Com 11 observações, a dobradiça inferior fica a meio caminho entre a 3ª e a 4ª maior observação e a dobradiça superior fica a meio caminho entre a 8ª e a 9ª maior observação (6 pontos em cada metade). A ilustração mostra o caso com 13 observações.

Observe que os quartis (/ dobradiças) não são de modo algum sensíveis aos valores dos valores discrepantes, apenas ao fato de estarem fora dos quartis. Você pode movê-los todos para perto das extremidades da caixa (para que não haja discrepâncias) sem alterar os quartis / dobradiças ou o mais longe que desejar (para que todos estejam longe), novamente sem alterar os valores dos quartis . Portanto, realmente não há necessidade de fazer nada quando há um "outlier".


* Ou melhor, um deles; Tukey deu várias definições, embora, para os propósitos atuais, precisemos apenas nos preocupar com o funcionamento do cálculo das dobradiças; Digo principalmente porque a versão com "outliers" seria o que Tukey chamou de enredo esquemático, mas eles não fazem aquele com dois tipos distintos de marcas "outlier".


A definição de dobradiças nesse contexto é a mesma que a descrição de Tukey sobre o uso do quarto spread ? Ao ler Noções básicas sobre análise de dados robusta e exploratória, ele afirma: "Alguns leitores podem estar familiarizados com o intervalo interquartil , que está muito próximo do quarto spread, porque os quartis são quase os mesmos que os quartos". Eu não vi naquele livro onde ele explicou a diferença entre os dois.
Tavrock 17/03/19

Os quartos @Tavrock têm a mesma definição que as dobradiças . Ambos os termos são invenções de Tukey. Então "dobradiça" é o mesmo que "quarta propagação".
Glen_b -Reinstate Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.