Aprendi nas estatísticas elementares que, com um modelo linear geral, para que as inferências sejam válidas, as observações devem ser independentes. Quando ocorre o agrupamento, a independência não pode mais ser mantida, levando a inferência inválida, a menos que isso seja explicado. Uma maneira de explicar esse cluster é usar modelos mistos. Gostaria de encontrar um exemplo de conjunto de dados, simulado ou não, que demonstre isso claramente. Tentei usar um dos conjuntos de dados de amostra no site da UCLA para analisar dados em cluster
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
A menos que esteja faltando alguma coisa, esses resultados são semelhantes o suficiente para que eu não ache que a saída lm()
seja inválida. Analisei alguns outros exemplos (por exemplo, 5.2 do Centro de Modelagem Multinível da Bristol University ) e descobri que os erros padrão também não são muito diferentes (não estou interessado nos efeitos aleatórios do modelo misto, mas vale a pena notar que o ICC da saída do modelo misto é 0,42).
Portanto, minhas perguntas são 1) sob quais condições os erros padrão serão marcadamente diferentes quando ocorrer o agrupamento e 2) alguém pode fornecer um exemplo desse conjunto de dados (simulado ou não).