O valor p para o teste t é calculado sob a suposição de que todas as observações são independentes. Probabilidades de computação (como o valor-p) são muito mais difíceis quando se lida com variáveis dependentes, e nem sempre é fácil ver matematicamente onde as coisas dão errado com o teste na presença de dependência. No entanto, podemos ilustrar facilmente o problema com uma simulação.
Considere, por exemplo, o caso em que existem 5 salas de aula em cada uma das duas escolas, com 10 alunos em cada sala de aula. Sob a premissa de normalidade, o valor p do teste deve ser distribuído uniformemente no intervalo se não houver diferença na pontuação média dos testes entre todas as salas de aula. Ou seja, se realizamos muitos estudos como esse e plotamos um histograma de todos os valores de p, ele deve se parecer com a distribuição uniforme em forma de caixa .( 0 , 1 )
No entanto, se houver alguma correlação na sala de aula entre os resultados dos alunos, os valores de p não se comportam mais como deveriam. Uma correlação positiva (como seria de esperar aqui) geralmente leva a valores p muito pequenos, de modo que a hipótese nula será rejeitada com muita frequência quando na verdade for verdadeira. Uma simulação R ilustrando isso pode ser encontrada abaixo. 1000 estudos de duas escolas são simulados para diferentes correlações dentro da sala de aula. Os valores p do teste t correspondente são mostrados nos histogramas da figura. Eles são distribuídos uniformemente quando não há correlação, mas não o contrário. Na simulação, supõe-se que não haja diferenças médias entre as salas de aula e que todas as salas de aula tenham a mesma correlação dentro da sala de aula.
A conseqüência desse fenômeno é que a taxa de erro tipo I do teste t estará muito distante se houver correlações dentro da sala de aula presentes. Como exemplo, um teste t no nível de 5% é de fato aproximadamente no nível de 25% se a correlação dentro da sala de aula for 0,1! Em outras palavras, o risco de rejeitar falsamente a hipótese nula aumenta dramaticamente quando as observações são dependentes .
Observe que os eixos diferem um pouco entre os histogramas.
Código R:
library(MASS)
B1<-1000
par(mfrow=c(3,2))
for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)
# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
# Generate observations of 50 students from school A
A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
# Generate observations of 50 students from school B
B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
p.value[i]<-t.test(A,B)$p.value
}
# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}