Como apresentar o gráfico de caixa com um valor extremo extremo?

Eu poderia usar algumas orientações sobre a apresentação de alguns dados.

Este primeiro gráfico é uma comparação caso-controle para a citocina IL-10. Eu configurei manualmente o eixo y para incluir 99% dos dados.

IL-10 Com eixo Y manual

A razão pela qual eu defino isso manualmente é porque o grupo de casos tem uma discrepância extrema. Com outlier

Meus colaboradores hesitam em executar uma remoção mais externa do nosso conjunto de dados. Eu estou bem com isso, mas eles preferem não. Essa seria a solução óbvia. Mas se eu vou manter todos os dados e não removê-los, como posso apresentar esse boxplot de maneira ideal? Dividir eixo? É aceitável usar apenas o primeiro gráfico e observe que ele foi construído para incluir todos os dados? (Esta opção me parece desonesta). Qualquer conselho seria ótimo.

— Alex C
fonte

Por que não apresentar as duas parcelas?

— Alexis8

Respostas:

Eu diria que, com dados como esses, você realmente precisa mostrar resultados em uma escala transformada. Esse é o primeiro imperativo e uma questão mais importante do que precisamente como desenhar um gráfico de caixa.

Mas eco a Frank Harrell ao insistir em algo mais informativo do que um enredo mínimo, mesmo com alguns pontos extremos identificados. Você tem espaço suficiente para mostrar muito mais informações. Aqui está um dos muitos exemplos, uma caixa híbrida e um gráfico quantil. Como nos seus dados, há dois grupos sendo comparados.

insira a descrição da imagem aqui

Vou pegar esses dois pontos um por um e dizer mais.

Escala transformada

No caso mais simples, todos os seus valores podem ser positivos e você deve primeiro tentar usar uma escala logarítmica.

Se você tiver zeros exatos, uma raiz quadrada ou uma escala de raiz de cubo ainda melhorará a assimetria extrema. Algumas pessoas estão satisfeitas com o log (valor + constante), onde constante é mais comumente 1, como uma maneira de lidar com zeros.

As implicações para gráficos de caixa do uso de uma escala transformada são sutis.

Se você usar a convenção comum de Tukey de mostrar individualmente todos os pontos além do quartil superior + 1,5 IQR ou quartil inferior - 1,5 IQR, então esses limites devem ser calculados na escala transformada. Isso não é o mesmo que calcular esses limites na escala original e depois transformar.

Em vez disso, eu apoiaria o que parece ainda ser uma convenção minoritária de seleção de quantis para fins de bigodes. Uma das várias vantagens disso é que a transformação de quantil = quantil de transformação, na maioria dos casos, pelo menos o suficiente para propósitos gráficos. (As letras pequenas são sempre que quantis são calculados por interpolação linear entre estatísticas de pedidos adjacentes.)

Essa convenção quantil foi sugerida com bastante destaque por Cleveland (1985). Para o registro, plotagens de caixas aprimoradas com caixas para quartis, caixas mais finas para oceanos externos (12,5 e 87,5% pontos) e plotagens de dados de tira foram usadas em geografia e climatologia por (por exemplo, Matthews (1936) e Grove (1956), sob o nome "diagramas de dispersão".

Mais do que caixas

As parcelas foram reinventadas por Tukey por volta de 1970 e mais visivelmente promovidas em seu livro de 1977. Grande parte de seu objetivo era promover gráficos que pudessem ser rapidamente desenhados usando caneta (cil) e papel na exploração informal. Ele também estava sugerindo maneiras de identificar possíveis discrepâncias. Tudo bem, mas agora todos temos acesso a computadores, não é difícil desenhar gráficos mostrando, se não todos os dados, pelo menos muito mais detalhes. O papel resumido dos gráficos de caixa é valioso, mas um gráfico também pode mostrar a estrutura fina, caso seja interessante ou importante. (E o que os pesquisadores acham desinteressante ou sem importância pode ser mais impressionante para seus leitores.)

Há muito espaço para discordâncias educadas sobre exatamente o que funciona melhor, mas, na minha opinião, os lotes vazios foram um pouco exagerados.

Os usuários do Stata podem encontrar mais informações sobre o programa que chamou a figura neste post estatalista . Os usuários de outro software não devem ter dificuldade em desenhar algo tão bom ou melhor (caso contrário, por que usar esse software?).

Cleveland, WS 1985. Elementos dos dados gráficos. Monterey, CA: Wadsworth.

Grove, AT 1956. Erosão do solo na Nigéria. In Steel, RW e Fisher, CA (Eds) Ensaios geográficos em terras tropicais britânicas. Londres: George Philip, 79-111.

Matthews, HA 1936. Uma nova visão de algumas chuvas familiares indianas. Revista Geográfica Escocesa 52: 84-97.

Tukey, JW 1977. Análise exploratória de dados. Reading, MA: Addison-Wesley.

— Nick Cox
fonte

Eu nunca vi essa justaposição de gráficos de caixas e ECDFs antes. Realmente legal! O que você acha da sobreposição dos dois ECDFs em um painel separado?

— Frank Harrell

@Frank Harrell Obrigado. A sobreposição também é uma boa ideia. Veja, por exemplo, stata-journal.com/sjpdf.html?articlenum=gr0018 para alguns exemplos em meu trabalho.

— Nick Cox

Para não tirar nada da excelente resposta de Nick, que acho que vale muito a pena ser votada - mas eu queria explorar algumas possibilidades.

Com esses dados altamente distorcidos em várias ordens de magnitude, a plotagem em escala de log geralmente é bastante reveladora; observe que você ainda pode ter marcas e rótulos nos valores originais. (Eu concordo com os pontos de Nick relacionados a transformações, por isso não vou me aprofundar mais nisso.)

Outra opção além da transformação é fazer algo como o seu segundo gráfico, mas incluir uma indicação de todos os valores não plotados:

$\$ insira a descrição da imagem aqui

Dessa forma, você não está removendo valores discrepantes, apenas exibindo-os de maneira diferente.

No entanto, eu juntaria Frank e Nick ao sugerir o uso de uma exibição mais informativa do que um boxplot simples - a combinação de um boxplot com plot quantil no post de Nick parece uma noção particularmente boa, embora se possa traçar o plot quantil levemente sobre (ou sob , como aqui) a caixa correspondente em vez de ao lado:

$\$ insira a descrição da imagem aqui

Se você não está fazendo algo assim (digamos apenas um gráfico de caixa simples), sugiro caixas substancialmente mais estreitas.

— Glen_b -Reinstate Monica
fonte

A sobreposição de gráficos de quantis e caixas também é atraente. Sublinha que o gráfico de caixa é uma redução do gráfico quantil, embora para alguns o gráfico de caixa possa parecer redundante. Para uma forte ênfase no relacionamento entre os dois gráficos, consulte, por exemplo, Parzen, E. 1979. Modelagem de dados estatísticos não paramétricos. Jornal da Associação Estatística Americana 74: 105-121

— Nick Cox

Você tem o conjunto de dados do OP? Ou você está raspando o gráfico / fingindo?

— Nick Cox

@ Nick Apenas fingindo, basicamente; Raspei efetivamente os pontos extremos (apenas à mão, eram poucos) e, em seguida, gerei valores abaixo dos quartis superiores, amostrando 3 uniformes entre os valores conhecidos (os 3 quartis e o mínimo) e entre os quartis superiores e o final dos bigodes superiores com exponenciais e, em seguida, acrescentou os pontos extremos (apenas para que meus gráficos de caixa pareçam semelhantes). Pelo menos essa é a essência da idéia. Os pontos extremos não serão precisos, portanto os valores impressos no meu gráfico são mais como exemplos.

— Glen_b -Reinstala Monica

@Glen_b Eu posso fazer uma pergunta separada, se você preferir, mas qual método você usou para sobrepor o gráfico quantil ao boxplot?

— Tavrock 13/03/19

@ Tavrock Faz dois anos e meio desde que escrevi isso, então acho que sim. A coisa mais óbvia a se fazer é chamar pointspara exibir os valores quantílicos (parece algo parecido com o xs=sort(x); points(ppoints(xs),xs)após o boxplot, mas, examinando atentamente, os pontos estão abaixo do boxplot; portanto, pode ter sido plotado e, em seguida, boxplot com add = TRUE ou pode ter sido boxplot, então aponta e boxplot por cima ... talvez

— Glen_b -Reinstala Monica 13/03

Prefiro tramas estendidas de caixas ou tramas de violino, porque elas contêm muito mais informações. Escalo gráficos de caixas estendidas para os quantis 0,01 e 0,99 das amostras combinadas. Consulte http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf para obter detalhes.

— Frank Harrell
fonte