É necessária muito pouca correlação entre as variáveis independentes para causar isso.
Para ver o porquê, tente o seguinte:
Desenhe 50 conjuntos de dez vetores com coeficientes iid padrão normal.(x1,x2,…,x10)
Calcule para . Isso torna o individualmente padrão normal, mas com algumas correlações entre eles.yi=(xi+xi+1)/2–√i=1,2,…,9yi
Calcule . Observe que .w=x1+x2+⋯+x10w=2–√(y1+y3+y5+y7+y9)
Adicione algum erro independente distribuído normalmente a . Com um pouco de experimentação, descobri que com funciona muito bem. Assim, é a soma do mais algum erro. Ele também é a soma de alguns dos o mais o mesmo erro.wz=w+εε∼N(0,6)zxiyi
Vamos considerar como variáveis independentes e como variável dependente.yiz
Aqui está uma matriz de dispersão de um desses conjuntos de dados, com na parte superior e esquerda e em ordem.zyi
As correlações esperadas entre e são quando e caso contrário. As correlações realizadas variam de 62%. Eles aparecem como gráficos de dispersão mais próximos da diagonal.yiyj1/2|i−j|=10
Veja a regressão de relação ao :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
A estatística F é altamente significativa, mas nenhuma das variáveis independentes é, mesmo sem nenhum ajuste para todas as nove.
Para ver o que está acontecendo, considere a regressão de contra apenas o números ímpares :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Algumas dessas variáveis são altamente significativas, mesmo com um ajuste de Bonferroni. (Há muito mais a ser dito olhando para esses resultados, mas isso nos afastaria do ponto principal.)
A intuição por trás disso é que depende principalmente de um subconjunto das variáveis (mas não necessariamente de um subconjunto exclusivo). O complemento desse subconjunto ( ) não adiciona essencialmente nenhuma informação sobre devido a correlações - por - com o próprio subconjunto.zy2,y4,y6,y8z
Esse tipo de situação surgirá na análise de séries temporais . Podemos considerar os subscritos como horários. A construção do induziu uma correlação serial de curto alcance entre eles, assim como muitas séries temporais. Devido a isso, perdemos pouca informação subamostrando a série em intervalos regulares.yi
Uma conclusão que podemos tirar disso é que, quando muitas variáveis são incluídas em um modelo, elas podem mascarar as verdadeiramente significativas. O primeiro sinal disso é a estatística F geral altamente significativa, acompanhada de testes t não tão significativos para os coeficientes individuais. (Mesmo quando algumas das variáveis são individualmente significativas, isso não significa automaticamente que as outras não são. Esse é um dos defeitos básicos das estratégias de regressão por etapas: elas são vítimas desse problema de mascaramento.) Aliás, os fatores de inflação da variaçãona primeira regressão, de 2,55 a 6,09, com média de 4,79: apenas no limite do diagnóstico de multicolinearidade, de acordo com as regras mais conservadoras; bem abaixo do limite de acordo com outras regras (onde 10 é um ponto de corte superior).