Como visualizar o teste t independente de duas amostras?

11

Quais são as formas mais aceitas de visualizar os resultados de um teste t independente de duas amostras? Uma tabela numérica é usada com mais frequência ou algum tipo de plotagem? O objetivo é que um observador casual olhe para a figura e veja imediatamente que provavelmente são de duas populações diferentes.

data-visualization t-test

— cbake
fonte

"Aceito" por quem, em que contexto? "Mais frequentemente usado" onde?

— Glen_b -Replica Monica

18

Vale a pena ser claro sobre o objetivo do seu enredo. Em geral, existem dois tipos diferentes de objetivos: você pode fazer gráficos para avaliar as suposições que você está fazendo e orientar o processo de análise de dados, ou você pode fazer gráficos para comunicar um resultado a outras pessoas. Estes não são os mesmos; por exemplo, muitos espectadores / leitores de seu gráfico / análise podem ser estatisticamente pouco sofisticados e podem não estar familiarizados com a idéia de, digamos, igual variação e seu papel em um teste t. Você deseja que seu gráfico transmita as informações importantes sobre seus dados, mesmo para consumidores como eles. Eles estão implicitamente confiantes de que você fez as coisas corretamente. Na configuração da sua pergunta, concluímos que você está atrás do último tipo.

Realisticamente, o gráfico mais comum e aceito para comunicar os resultados de um teste t ¹ a outras pessoas (reserve se é realmente o mais apropriado) é um gráfico de barras de médias com barras de erro padrão. Isso corresponde muito bem ao teste t, na medida em que um teste t compara dois meios usando seus erros padrão. Quando você tem dois grupos independentes, isso produzirá uma imagem intuitiva, mesmo para os estatisticamente pouco sofisticados, e as pessoas (que desejam dados) podem "ver imediatamente que provavelmente são de duas populações diferentes". Aqui está um exemplo simples usando os dados de @ Tim:

nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m        = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se       = c(sd(nonsmokers)/sqrt(length(nonsmokers)), 
             sd(smokers)/sqrt(length(smokers)))
windows()
  bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
  box()
  arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)

Dito isto, os especialistas em visualização de dados geralmente desdenham esses gráficos. Eles são frequentemente ridicularizados como "parcelas de dinamite" (cf. Por que as parcelas de dinamite são ruins ). Em particular, se você possui apenas alguns dados, geralmente é recomendável que você mostre os dados eles mesmos . Se os pontos se sobrepuserem, você pode tremer horizontalmente (adicione uma pequena quantidade de ruído aleatório) para que eles não se sobreponham mais. Como um teste t é fundamentalmente sobre meios e erros padrão, é melhor sobrepor os meios e erros padrão a esse gráfico. Aqui está uma versão diferente:

set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE, 
     xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)

Se você tiver muitos dados, os boxplots podem ser uma opção melhor para obter uma visão geral rápida das distribuições, e você pode sobrepor os meios e SEs também.

data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m  = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see

Gráficos simples de dados e gráficos de caixa são suficientemente simples para que a maioria das pessoas consiga entendê-los, mesmo que não sejam muito experientes estatisticamente. Porém, lembre-se de que nada disso facilita a avaliação da validade de se ter usado um teste t para comparar seus grupos. Esses objetivos são melhor atendidos por diferentes tipos de parcelas.

_{1. Observe que esta discussão supõe um teste t de amostras independentes. Essas plotagens podem ser usadas com um teste t de amostras dependentes, mas também podem ser enganosas nesse contexto (cf. O uso de barras de erro como forma de estudo dentro dos sujeitos está errado? ).}

— - Reinstate Monica
fonte

Um grande problema ao usar o gráfico de barra + IC é que às vezes a diferença é estatisticamente significativa, mas os ICs se sobrepõem . Dado que o gráfico de barra + IC tenta atrair um público generalista, realmente não queremos gastar tempo explicando essa ruga extra.

— Heisenberg

@ Heisenberg, estou ciente disso. Não existe um enredo único e perfeito para todas as ocasiões e propósitos. Também não mencionei ICs, apenas SEs (embora isso fosse equivalente a alguns ICs, dependendo do DF). A importância é comumente mencionada na legenda da figura e discutida no texto. Se você deseja que ele seja exibido de maneira inequívoca no próprio gráfico, é possível adicionar colchetes e valores-p (por exemplo, aqui ).

— gung - Restabelece Monica

Peço desculpas se o tom soa agressivo. Estou um pouco irritado que, no final, ainda não haja uma maneira elegante de visualizar um teste t para uma audiência generalista sem explicar mais. Isso pode se resumir à plotagem: gráficos de 2 barras mostrando médias de grupo com SE e um terceiro gráfico mostrando a diferença e seu IC (como o seu link ). Mas essa visualização mostra informações redundantes (grupos significa E diferença de meios), o que também pode confundir o público.

— Heisenberg

@Heisenberg, eu não usaria o gráfico da minha outra resposta, a menos que estivesse tentando exibir um teste t dentro dos pacientes. Eu acho que provavelmente é bom apresentar 2 barras w / SEs para um teste t, com uma legenda de figura simples. Se você precisar de significado no gráfico, adicione colchetes ou algo do tipo (geralmente acho desnecessário).

— gung - Restabelece Monica

14

A maneira mais comum de visualizar a comparação do tipo -teste é usar gráficos de caixa . Abaixo, forneço um exemplo usando o conjunto de dados que descreve "a relação entre o consumo de maconha e um déficit no desempenho de uma tarefa que mede memória de curto prazo" deste site . $t$

> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
> 
> t.test(nonsmokers, smokers)

    Welch Two Sample t-test

data:  nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.1628205 5.0371795
sample estimates:
mean of x mean of y 
     20.1      17.5

Na verdade, os boxplots são comumente usados para testes de hipóteses "informais", por exemplo, como descrito por Yoav Benjamini em 1988, abrindo a caixa de um boxplot :

O boxplot regular é complementado por um intervalo de confiança aproximado para a mediana do lote, mostrado como um par de fatias retiradas dos lados da caixa. Esses intervalos de confiança são construídos de tal maneira que, quando dois entalhes de boxplots diferentes não se sobrepõem, suas medianas são significativamente diferentes. (...) Como a fórmula para o intervalo de confiança é um tempo constante do intervalo interquartil dividido pela raiz quadrada do tamanho do lote, este último pode ser percebido a partir do comprimento das cunhas em relação ao comprimento da caixa.

Consulte também: Teste T usando apenas dados de resumo em um gráfico de caixa

Esse gráfico não mostra quantidades diretamente envolvidas no teste , como observou o @NickCox . Se você quiser uma comparação direta de médias com intervalos de confiança, use o gráfico de barras com intervalos de confiança marcados. O uso de médias e intervalos de confiança também permite realizar testes de hipóteses (veja aqui ou aqui ). $t$

Como você pode ver em outras postagens e comentários neste tópico, tanto boxplots quanto dinamite são uma escolha controversa, então deixe-me dar mais uma alternativa que ainda não foi mencionada. Primeiro, lembre-se de que o teste e a regressão estão relacionados . Você pode plotar a comparação do tipo -teste como dois pontos com barras de erro (intervalos de confiança) conectadas à linha. A inclinação da linha é proporcional à inclinação da regressão se você usou regressão linear em vez de $t$ $t$ $t$ -test nesta situação. A maior vantagem desse gráfico é que ele permite que você julgue facilmente a magnitude da diferença de médias observando a inclinação da linha. Sua desvantagem pode ser o fato de sugerir que existe alguma "continuidade" entre os meios (ou seja, você teve amostras emparelhadas).

Boxplots parecem ser mais comumente usados, pois fornecem mais informações sobre a distribuição das variáveis visualizadas (comparando a média apenas com o intervalo de confiança). Eles também complementam, em vez de duplicar, as informações do teste e esse uso do enredo é incentivado pela maioria dos guias de estilo, por exemplo, pelo Publication Manual da American Psychological Association : $t$

A primeira consideração é o valor da informação da figura no texto do artigo em que ela deve aparecer. Se a figura não aumentar substancialmente a compreensão do trabalho ou duplicar outros elementos do trabalho, ela não deverá ser incluída.

— Tim
fonte

4

Isso é realmente comum, mesmo em textos que discutem testes t e ANOVA, mas é uma escolha extraordinária. O gráfico da caixa não mostra nenhuma das quantidades envolvidas diretamente no teste t. No mínimo, um gráfico pertinente deve mostrar os meios e fornecer mais detalhes sobre a distribuição do que um gráfico em caixa. Os detalhes nas caudas são frequentemente cruciais na interpretação do teste.

— Nick Cox

OK @NickCox, o conjunto de dados foi escolhido apenas para visualização, mas agora mudei para um exemplo mais apropriado.

— Tim

3

O gráfico de barras (também conhecido como "gráfico de dinamite") possui uma taxa extremamente alta de tinta: informação.

— Frank Harrell

A citação do Manual da APA (não verifiquei o contexto) é um bom conselho geral, mas não é, por si só, um argumento direto para o uso do gráfico de caixa parcialmente relevante nesse contexto. Concordo, naturalmente, que os boxplots podem ser muito úteis e frequentemente complementares, e que são usados com muita frequência, mas meu primeiro ponto permanece.

— Nick Cox

@NickCox Não posso dizer que estou de acordo com você, mas ainda considero o boxplot para fornecer informações adicionais e não duplicar os resultados do teste t, mesmo que não esteja diretamente relacionado ao teste t. É simples, claro e informativo.

— Tim

8

Isso é principalmente uma variação das respostas úteis de @Tim e @gung, mas os gráficos não podem ser ajustados em um comentário.

Pontos pequenos, mas possivelmente úteis:

Um gráfico de tiras ou pontos, como ilustrado por @gung, precisa ser modificado se houver empates, como nos dados de exemplo. Os pontos podem ser empilhados ou tremidos, ou, como no exemplo abaixo, você pode usar um gráfico híbrido de caixas de quantis sugerido por Emanuel Parzen (a referência mais acessível é provavelmente 1979. Modelagem de dados estatísticos não paramétricos. Journal, American Statistical Association74: 105-121). Isso também tem outros méritos, ao sublinhar que, se metade dos dados estiver dentro da caixa, a metade também estará fora e mostrar essencialmente todos os detalhes da distribuição. Onde existem apenas dois grupos, como neste contexto, qualquer tipo mais convencional de plotagem de caixa pode ser uma exibição mínima, na verdade esquelética. Alguns consideram isso uma virtude, mas há margem para mostrar mais detalhes. O argumento inverso é que um gráfico de caixa sinalizando pontos específicos, notadamente aqueles com mais de 1,5 IQR do quartil mais próximo, é um aviso claro para o usuário: cuidado com um teste t, pois pode haver pontos nas caudas que você deve preocupado sobre.
Naturalmente, você pode adicionar uma indicação dos meios a um gráfico de caixa, o que geralmente é feito. Adicionar um marcador ou símbolo de ponto diferente é comum. Aqui nós escolhemos linhas de referência.

Parcelas de caixas quantílicas para fumantes e não fumantes. As caixas mostram medianas e quartis. As linhas horizontais em azul mostram meios.

Nota. O gráfico foi criado no Stata. Aqui está o código para os interessados. stripplotdeve ser instalado anteriormente com ssc inst stripplot.

clear 
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers)) 
set obs `n' 
gen smokers = smokers[1, _n] 
gen nonsmokers = nonsmokers[1, _n] 
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge)

$0$ $1$ $+$

— Nick Cox
fonte

11

+1, pretendo tremer os dados, mas ainda não consegui acessá-los. Eu também estava pensando em adicionar gráficos mais avançados, incluindo gráficos de caixas de quantil, gráficos de violino e gráficos de qq, mas acabei abandonando a ideia de listar cada vez mais gráficos.

— gung - Restabelece Monica

@gung Fair bastante; infelizmente ou felizmente, o segmento pode se transformar facilmente em como comparar duas distribuições em geral. Para outro exemplo de dados, os histogramas podem ser um concorrente sério etc.

— Nick Cox

5

$t$

— Frank Harrell
fonte

Eu adicionei uma das várias possibilidades à minha própria resposta.

— Nick Cox