Vale a pena ser claro sobre o objetivo do seu enredo. Em geral, existem dois tipos diferentes de objetivos: você pode fazer gráficos para avaliar as suposições que você está fazendo e orientar o processo de análise de dados, ou você pode fazer gráficos para comunicar um resultado a outras pessoas. Estes não são os mesmos; por exemplo, muitos espectadores / leitores de seu gráfico / análise podem ser estatisticamente pouco sofisticados e podem não estar familiarizados com a idéia de, digamos, igual variação e seu papel em um teste t. Você deseja que seu gráfico transmita as informações importantes sobre seus dados, mesmo para consumidores como eles. Eles estão implicitamente confiantes de que você fez as coisas corretamente. Na configuração da sua pergunta, concluímos que você está atrás do último tipo.
Realisticamente, o gráfico mais comum e aceito para comunicar os resultados de um teste t 1 a outras pessoas (reserve se é realmente o mais apropriado) é um gráfico de barras de médias com barras de erro padrão. Isso corresponde muito bem ao teste t, na medida em que um teste t compara dois meios usando seus erros padrão. Quando você tem dois grupos independentes, isso produzirá uma imagem intuitiva, mesmo para os estatisticamente pouco sofisticados, e as pessoas (que desejam dados) podem "ver imediatamente que provavelmente são de duas populações diferentes". Aqui está um exemplo simples usando os dados de @ Tim:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Dito isto, os especialistas em visualização de dados geralmente desdenham esses gráficos. Eles são frequentemente ridicularizados como "parcelas de dinamite" (cf. Por que as parcelas de dinamite são ruins ). Em particular, se você possui apenas alguns dados, geralmente é recomendável que você mostre os dados eles mesmos . Se os pontos se sobrepuserem, você pode tremer horizontalmente (adicione uma pequena quantidade de ruído aleatório) para que eles não se sobreponham mais. Como um teste t é fundamentalmente sobre meios e erros padrão, é melhor sobrepor os meios e erros padrão a esse gráfico. Aqui está uma versão diferente:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Se você tiver muitos dados, os boxplots podem ser uma opção melhor para obter uma visão geral rápida das distribuições, e você pode sobrepor os meios e SEs também.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Gráficos simples de dados e gráficos de caixa são suficientemente simples para que a maioria das pessoas consiga entendê-los, mesmo que não sejam muito experientes estatisticamente. Porém, lembre-se de que nada disso facilita a avaliação da validade de se ter usado um teste t para comparar seus grupos. Esses objetivos são melhor atendidos por diferentes tipos de parcelas.
1. Observe que esta discussão supõe um teste t de amostras independentes. Essas plotagens podem ser usadas com um teste t de amostras dependentes, mas também podem ser enganosas nesse contexto (cf. O uso de barras de erro como forma de estudo dentro dos sujeitos está errado? ).