O tópico que você está perguntando é multicolinearidade . Você pode ler alguns dos tópicos no CV categorizados sob a tag multicolinearidade . A resposta do @ whuber vinculada acima em particular também vale o seu tempo.
A afirmação de que "se dois preditores são correlacionados e ambos são incluídos em um modelo, um será insignificante", não está correta. Se houver um efeito real de uma variável, a probabilidade de que a variável seja significativa é função de várias coisas, como a magnitude do efeito, a magnitude da variação do erro, a variação da própria variável, a quantidade de dados. você possui e o número de outras variáveis no modelo. Se as variáveis estão correlacionadas também é relevante, mas não substitui esses fatos. Considere a seguinte demonstração simples em R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
N
X1X2R2X11/(1−R2)X110X110×X1
Pensar no que aconteceria se você incluísse as duas variáveis correlacionadas versus apenas uma é semelhante, mas um pouco mais complicada do que a abordagem discutida acima. Isso ocorre porque não incluir uma variável significa que o modelo usa menos graus de liberdade, o que altera a variação residual e tudo o que é calculado a partir disso (incluindo a variação dos coeficientes de regressão). Além disso, se a variável não incluída realmente estiver associada à resposta, a variação na resposta devido a essa variável será incluída na variação residual, tornando-a maior do que seria. Assim, várias coisas mudam simultaneamente (a variável está correlacionada ou não com outra variável e a variação residual), e o efeito preciso de abandonar / incluir a outra variável dependerá de como elas serão trocadas.
Armado com uma compreensão do VIF, aqui estão as respostas para suas perguntas:
- Como a variância da distribuição amostral do coeficiente de regressão seria maior (por um fator do VIF) se estivesse correlacionada com outras variáveis do modelo, os valores de p seriam maiores (isto é, menos significativos) do que de outra forma .
- As variações dos coeficientes de regressão seriam maiores, como já discutido.
- Y
- Como os valores previstos e sua variação mudariam é bastante complicado. Depende de quão fortemente correlacionadas são as variáveis e da maneira como elas parecem estar associadas à sua variável de resposta nos seus dados. Em relação a esse problema, pode ser útil ler minha resposta aqui: Existe uma diferença entre 'controlar' e 'ignorar' outras variáveis na regressão múltipla?