Esta é mais uma pergunta conceitual, mas como eu uso R
, vou me referir aos pacotes em R
. Se o objetivo é ajustar um modelo linear para fins de previsão e, em seguida, fazer previsões onde os efeitos aleatórios podem não estar disponíveis, existe algum benefício em usar um modelo de efeitos mistos ou um modelo de efeito fixo deve ser usado?
Por exemplo, se eu tiver dados sobre peso x altura com algumas outras informações e construir o seguinte modelo usando lme4
, em que assunto é um fator com níveis ( ):n = n o . s a m p l e s
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Quero poder prever o peso do modelo usando novos dados de altura e idade. Obviamente, a variação por sujeito nos dados originais é capturada no modelo, mas é possível usar essas informações na previsão? Digamos que eu tenha alguns novos dados de altura e idade e queira prever o peso, posso fazer o seguinte:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Isso será usado predict.merMod
e posso incluir uma coluna para (novos) assuntos newdf
ou definir re.form =~0
. Em uma primeira instância, não está claro o que o modelo faz com os 'novos' fatores de sujeito e, em uma segunda instância, a variação por sujeito capturada no modelo será simplesmente ignorada (calculada a média) para a previsão?
Nos dois casos, parece-me que um modelo linear de efeito fixo pode ser mais apropriado. De fato, se meu entendimento estiver correto, um modelo de efeito fixo deve prever os mesmos valores que o modelo misto, se o efeito aleatório não for usado na previsão. Deve ser esse o caso? Nele R
não é, por exemplo:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
produz resultados diferentes para:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age