Eu diria que, com dados como esses, você realmente precisa mostrar resultados em uma escala transformada. Esse é o primeiro imperativo e uma questão mais importante do que precisamente como desenhar um gráfico de caixa.
Mas eco a Frank Harrell ao insistir em algo mais informativo do que um enredo mínimo, mesmo com alguns pontos extremos identificados. Você tem espaço suficiente para mostrar muito mais informações. Aqui está um dos muitos exemplos, uma caixa híbrida e um gráfico quantil. Como nos seus dados, há dois grupos sendo comparados.
Vou pegar esses dois pontos um por um e dizer mais.
Escala transformada
No caso mais simples, todos os seus valores podem ser positivos e você deve primeiro tentar usar uma escala logarítmica.
Se você tiver zeros exatos, uma raiz quadrada ou uma escala de raiz de cubo ainda melhorará a assimetria extrema. Algumas pessoas estão satisfeitas com o log (valor + constante), onde constante é mais comumente 1, como uma maneira de lidar com zeros.
As implicações para gráficos de caixa do uso de uma escala transformada são sutis.
Se você usar a convenção comum de Tukey de mostrar individualmente todos os pontos além do quartil superior + 1,5 IQR ou quartil inferior - 1,5 IQR, então esses limites devem ser calculados na escala transformada. Isso não é o mesmo que calcular esses limites na escala original e depois transformar.
Em vez disso, eu apoiaria o que parece ainda ser uma convenção minoritária de seleção de quantis para fins de bigodes. Uma das várias vantagens disso é que a transformação de quantil = quantil de transformação, na maioria dos casos, pelo menos o suficiente para propósitos gráficos. (As letras pequenas são sempre que quantis são calculados por interpolação linear entre estatísticas de pedidos adjacentes.)
Essa convenção quantil foi sugerida com bastante destaque por Cleveland (1985). Para o registro, plotagens de caixas aprimoradas com caixas para quartis, caixas mais finas para oceanos externos (12,5 e 87,5% pontos) e plotagens de dados de tira foram usadas em geografia e climatologia por (por exemplo, Matthews (1936) e Grove (1956), sob o nome "diagramas de dispersão".
Mais do que caixas
As parcelas foram reinventadas por Tukey por volta de 1970 e mais visivelmente promovidas em seu livro de 1977. Grande parte de seu objetivo era promover gráficos que pudessem ser rapidamente desenhados usando caneta (cil) e papel na exploração informal. Ele também estava sugerindo maneiras de identificar possíveis discrepâncias. Tudo bem, mas agora todos temos acesso a computadores, não é difícil desenhar gráficos mostrando, se não todos os dados, pelo menos muito mais detalhes. O papel resumido dos gráficos de caixa é valioso, mas um gráfico também pode mostrar a estrutura fina, caso seja interessante ou importante. (E o que os pesquisadores acham desinteressante ou sem importância pode ser mais impressionante para seus leitores.)
Há muito espaço para discordâncias educadas sobre exatamente o que funciona melhor, mas, na minha opinião, os lotes vazios foram um pouco exagerados.
Os usuários do Stata podem encontrar mais informações sobre o programa que chamou a figura neste post estatalista . Os usuários de outro software não devem ter dificuldade em desenhar algo tão bom ou melhor (caso contrário, por que usar esse software?).
Cleveland, WS 1985. Elementos dos dados gráficos. Monterey, CA: Wadsworth.
Grove, AT 1956. Erosão do solo na Nigéria. In Steel, RW e Fisher, CA (Eds)
Ensaios geográficos em terras tropicais britânicas. Londres: George Philip, 79-111.
Matthews, HA 1936. Uma nova visão de algumas chuvas familiares indianas. Revista Geográfica Escocesa 52: 84-97.
Tukey, JW 1977. Análise exploratória de dados. Reading, MA: Addison-Wesley.