Ainda não tentei reter dados para prever, mas minha intuição é que fixar as covariâncias em zero no seu modelo é análogo a prever um DV combinando um conjunto de equações de regressão linear separadas, de um único IV. Diferentemente dessa abordagem, a regressão múltipla é responsável pela covariância nas IVs ao produzir um modelo de equações para prever a DV. Isso certamente melhora a interpretabilidade, separando efeitos diretos de efeitos indiretos que ocorrem inteiramente dentro do conjunto incluído de IVs. Honestamente, não tenho certeza se isso necessariamente melhora a previsão do DV. Sendo um usuário de estatísticas e não um estatístico, reuni a seguinte função de teste de simulação para dar uma resposta incompleta (aparentemente, "Sim, a precisão preditiva melhora quando o modelo incorpora covariância IV") neste caso, esperançosamente análogo ...
simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
# Wrapping the function in str( ) gives you the gist without filling your whole screen
str(simtestit())
N= Iterations
n = Sample.Size
) de três variáveis normalmente distribuídas:z
= x
+y
= x
+ z
+y
x
z
1y.predicted
2bizarro.y.predicted
output
Iterations
R21 eo21>2rx
y
z
output
simtestit()
str( )
R21rpsych
R2R2 parece ser maior quando a covariância dos IVs (o qual pode ser manipulado de forma incompleta, inserindo um argumento a favorIV.r
) é maior. Como você provavelmente está mais familiarizado com a sua função GLM do que eu (o que não é de todo), provavelmente você pode alterar essa função ou usar a idéia básica para comparar as previsões do GLM entre as IVs desejadas sem muitos problemas. Supondo que isso resultaria (ou ocorrerá) da mesma maneira, parece que a resposta básica para sua segunda pergunta provavelmente é sim, mas o quanto depende de quão fortemente os IVs cobram. As diferenças no erro de amostragem entre os dados retidos e os dados usados para ajustar o modelo podem sobrecarregar a melhoria em sua precisão preditiva no último conjunto de dados, porque, novamente, a melhoria parece ser pequena, a menos que as correlações IV sejam fortes (pelo menos, em o caso maximamente básico com apenas dois IVs).