Um boxplot pretende resumir um conjunto relativamente pequeno de dados de uma maneira que mostre claramente
Um valor central.
A difusão de valores "típicos".
Valores individuais que se afastam tanto do valor central, em relação ao spread, que são destacados para atenção especial e identificados separadamente (por nome, por exemplo). Estes são chamados "valores identificados".
Isso deve ser feito de uma maneira robusta : isso significa que o boxplot não deve parecer sensivelmente diferente quando um ou uma parte relativamente pequena dos valores dos dados for arbitrariamente alterada.
A solução adotada por seu inventor John Tukey é usar as estatísticas da ordem - os dados classificados do menor para o maior - de maneira sistemática. Por simplicidade (ele fazia cálculos mentalmente ou com lápis e papel), Tukey focava nas medianas : os valores médios dos lotes de números. (Para lotes com contagens pares, Tukey usou o ponto médio dos dois valores médios.) Uma mediana é resistente a alterações em até metade dos dados em que se baseia, tornando-a excelente como uma estatística robusta. Portanto:
O valor central é estimado com a mediana de todos os dados.
O spread é estimado com a diferença entre as medianas da "metade superior" - todos os dados iguais ou superiores à mediana - e a "metade inferior" - todos os dados iguais ou inferiores à mediana. Essas duas medianas são chamadas de "dobradiças" superiores e inferiores ou "quartos". Hoje eles tendem a ser substituídos por coisas chamadas quartis (que não têm definição universal, infelizmente).
Cercas invisíveis para a detecção de outliers são erguidas 1,5 e 3 vezes a extensão além das dobradiças (longe do valor central).
- "O valor em cada extremidade mais próximo, mas ainda dentro, da cerca interna é 'adjacente'".
- Valores além da primeira cerca são chamados de "valores extremos".
- Os valores além da segunda cerca estão "distantes".
(Os que tiverem idade suficiente para se lembrar do argumento hippie dos anos 60 entenderão a piada.)
Como a dispersão é uma diferença dos valores dos dados, essas cercas têm as mesmas unidades de medida que os dados originais: esse é o sentido de "distância" na questão.
Com relação aos valores de dados a serem identificados, Tukey escreveu
Podemos pelo menos identificar os valores extremos e fazer bem em identificar mais alguns.
Qualquer método gráfico para exibir a mediana, as dobradiças e os valores identificados indiscutivelmente merece ser chamado de "gráfico de caixa" (originalmente, "gráfico de caixa e bigode"). As cercas geralmente não são representadas. O design de Tukey consiste em um retângulo que descreve as dobradiças com uma "cintura" na mediana. Os "bigodes" discretos e em forma de linha se estendem para fora das dobradiças até os valores mais internos identificados (acima e abaixo da caixa). Geralmente esses valores mais internos identificados são os valores adjacentes definidos acima.
Consequentemente, a aparência padrão de um boxplot é estender os bigodes aos valores extremos de dados não periféricos e identificar (por meio de rótulos de texto) os dados que compreendem as extremidades dos bigodes e de todos os outliers. Por exemplo, o vulcão Tupungatito é o alto valor adjacente para os dados das alturas do vulcão representados à direita da figura: o bigode para por aí. Tupungatito e todos os vulcões mais altos são identificados separadamente.
Para que os dados sejam exibidos fielmente, a distância no gráfico é proporcional às diferenças nos valores dos dados. (Qualquer desvio da proporcionalidade direta introduziria um "fator de mentira" na terminologia de Tufte (1983).)

Esses dois gráficos do livro EDA de Tukey (p. 41) ilustram os componentes. Vale ressaltar que ele identificou valores não periféricos nas extremidades superior e inferior do conjunto de dados dos Estados à esquerda e um valor não periférico baixo das alturas do vulcão à direita. Isso exemplifica a interação de regras e julgamento que permeia o livro.
(Você pode dizer que esses dados identificados não são periféricos, porque é possível estimar os locais das cercas. Por exemplo, as dobradiças das alturas dos estados estão próximas de 11.000 e 1.000, distribuindo cerca de 10.000. Multiplicar por 1,5 e 3 indica distâncias de 15.000 e 30.000.Portanto, a cerca superior invisível deve estar próxima de 11.000 + 15.000 = 26.000 e a cerca inferior, de 1.000 a 15.000, será inferior a zero.As cercas distantes estarão próximas de 11.000 + 30.000 = 41.000 e 1.000 - 30.000 = -29.000.)
Referências
Tufte, Edward. A exibição visual de informações quantitativas. Cheshire Press, 1983.
Tukey, John. Capítulo 2, EDA . Addison-Wesley, 1977.