Se desejamos realizar um teste t emparelhado, o requisito é (se bem entendi) que a diferença média entre as unidades de medida correspondentes seja distribuída normalmente.
No teste t pareado, isso é articulado (AFAIK) na demanda de que a diferença entre as unidades de medida combinadas seja distribuída normalmente (mesmo que a distribuição de cada um dos dois grupos comparados não seja normal).
No entanto, em um teste t não pareado, não podemos falar sobre a diferença entre as unidades correspondentes, por isso exigimos que as observações dos dois grupos sejam normais para que a diferença de sua média seja normal. O que me leva à minha pergunta:
É possível para duas distribuições não normais, para que a diferença de suas médias seja distribuída normalmente? (e, portanto, satisfaça nosso requisito necessário para executar um teste t não emparelhado com eles - novamente - tanto quanto eu entendo).
Atualização: (obrigado a todos pelas respostas) Vejo que a regra geral que estamos procurando é realmente que a diferença dos meios será normal, o que parece ser uma boa suposição (sob tamanho suficiente n) devido ao CLT. Isso é incrível para mim (não é surpreendente, é simplesmente incrível), sobre como isso funciona para o teste t não pareado, mas não funciona tão bem para o teste t de amostra única. Aqui está um código R para ilustrar:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Obrigado.