Por que é possível obter estatística F significativa (p <0,001), mas testes t de regressão não significativos?


70

Em uma regressão linear múltipla, por que é possível ter uma estatística F altamente significativa (p <0,001), mas ter valores de p muito altos em todos os testes t do regressor?

No meu modelo, existem 10 regressores. Um deles tem um valor de p de 0,1 e o restante está acima de 0,9


Para lidar com esse problema, consulte a pergunta seguinte .


2
A constante também é insignificante? Quantos casos estão envolvidos? Quantas variáveis?
whuber

Como foi diagnosticada a multicolinearidade? Existem muitos métodos, alguns são mais informativos que outros. Quanto mais você nos contar, melhor a comunidade poderá responder.
Stask

3
Esta pergunta se tornou uma FAQ. Algumas das respostas aqui foram mescladas a partir de threads substancialmente semelhantes.
whuber


Eu tive o mesmo problema e as respostas acima não podem me ajudar. Agora eu sei a resposta (pelo menos para o meu problema): o valor F do modelo 2 pode ser significativo, porque você tem a mesma 'constante' (variável) que no modelo 1 (cujo valor F também é significativo). Você precisa olhar para a tabela chamada 'Resumo do modelo' na coluna 'Ass. F Altere 'para ver se a alteração em R ao quadrado é significativa (para o modelo 2). Se esse for significativo, os valores b também devem ser significativos. Você pode ignorar totalmente o valor F.

Respostas:


53

Como Rob menciona, isso ocorre quando você tem variáveis ​​altamente correlacionadas. O exemplo padrão que eu uso é prever o peso do tamanho do sapato. Você pode prever o peso igualmente bem com o tamanho do sapato direito ou esquerdo. Mas juntos não dá certo.

Breve exemplo de simulação

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

9
É interessante e importante observar que os dois modelos prevêem igualmente bem, neste caso. Altas correlações entre preditores não são necessariamente um problema para previsão. A multicolinearidade é apenas um problema quando 1) analistas tentam interpretar inadequadamente vários coeficientes de regressão; 2) o modelo não é calculável; e 3) as SEs são infladas e os coeficientes são instáveis.
Brett

Entendo que as duas variáveis ​​estão altamente correlacionadas entre si, portanto, o resultado do teste t não é significativo, enquanto o resultado do teste F é significativo. Mas como isso acontece? Quero dizer, qual é a razão subjacente a esse fato?
yue86231

105

É necessária muito pouca correlação entre as variáveis ​​independentes para causar isso.

Para ver o porquê, tente o seguinte:

  • Desenhe 50 conjuntos de dez vetores com coeficientes iid padrão normal.(x1,x2,,x10)

  • Calcule para . Isso torna o individualmente padrão normal, mas com algumas correlações entre eles.yi=(xi+xi+1)/2i=1,2,,9yi

  • Calcule . Observe que .w=x1+x2++x10w=2(y1+y3+y5+y7+y9)

  • Adicione algum erro independente distribuído normalmente a . Com um pouco de experimentação, descobri que com funciona muito bem. Assim, é a soma do mais algum erro. Ele também é a soma de alguns dos o mais o mesmo erro.wz=w+εεN(0,6)zxiyi

Vamos considerar como variáveis ​​independentes e como variável dependente.yiz

Aqui está uma matriz de dispersão de um desses conjuntos de dados, com na parte superior e esquerda e em ordem.zyi

Matriz de dispersão

As correlações esperadas entre e são quando e caso contrário. As correlações realizadas variam de 62%. Eles aparecem como gráficos de dispersão mais próximos da diagonal.yiyj1/2|ij|=10

Veja a regressão de relação ao :zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

A estatística F é altamente significativa, mas nenhuma das variáveis ​​independentes é, mesmo sem nenhum ajuste para todas as nove.

Para ver o que está acontecendo, considere a regressão de contra apenas o números ímpares :zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Algumas dessas variáveis ​​são altamente significativas, mesmo com um ajuste de Bonferroni. (Há muito mais a ser dito olhando para esses resultados, mas isso nos afastaria do ponto principal.)

A intuição por trás disso é que depende principalmente de um subconjunto das variáveis ​​(mas não necessariamente de um subconjunto exclusivo). O complemento desse subconjunto ( ) não adiciona essencialmente nenhuma informação sobre devido a correlações - por - com o próprio subconjunto.zy2,y4,y6,y8z

Esse tipo de situação surgirá na análise de séries temporais . Podemos considerar os subscritos como horários. A construção do induziu uma correlação serial de curto alcance entre eles, assim como muitas séries temporais. Devido a isso, perdemos pouca informação subamostrando a série em intervalos regulares.yi

Uma conclusão que podemos tirar disso é que, quando muitas variáveis ​​são incluídas em um modelo, elas podem mascarar as verdadeiramente significativas. O primeiro sinal disso é a estatística F geral altamente significativa, acompanhada de testes t não tão significativos para os coeficientes individuais. (Mesmo quando algumas das variáveis ​​são individualmente significativas, isso não significa automaticamente que as outras não são. Esse é um dos defeitos básicos das estratégias de regressão por etapas: elas são vítimas desse problema de mascaramento.) Aliás, os fatores de inflação da variaçãona primeira regressão, de 2,55 a 6,09, com média de 4,79: apenas no limite do diagnóstico de multicolinearidade, de acordo com as regras mais conservadoras; bem abaixo do limite de acordo com outras regras (onde 10 é um ponto de corte superior).


5
Ótima resposta. Um mais 1 de mim. Eu gostaria de dar mais.
Michael Chernick

41

Multicolinearidade

  • Como você observa, e como foi discutido nesta pergunta anterior , altos níveis de multicolinearidade são uma das principais causas de um estatisticamente significativo, mas preditores estaticamente não significativos.R2
  • Obviamente, a multicolinearidade não é apenas um limiar absoluto. Os erros padrão nos coeficientes de regressão aumentam à medida que as intercorrelações com o preditor focal aumentam.

Vários preditores quase significativos

  • Mesmo se você não tivesse multicolinearidade, ainda poderá obter preditores não significativos e um modelo global significativo se dois ou mais preditores individuais estiverem próximos de significativos e, portanto, coletivamente, a previsão geral ultrapassará o limiar da significância estatística. Por exemplo, usando um alfa de 0,05, se você tivesse dois preditores com valores de p de 0,06 e 0,07, não ficaria surpreso se o modelo geral tivesse um p <0,05.

Boa resposta concisa. Para adicionar isso, eu sugeriria perturbar os dados (ou remover um preditor) e ver se há uma mudança perceptível nos coeficientes da regressão. Por exemplo, procure alterações de sinal.
Mustafa S Eisa

38

Isso acontece quando os preditores são altamente correlacionados. Imagine uma situação em que existem apenas dois preditores com correlação muito alta. Individualmente, ambos também se correlacionam estreitamente com a variável de resposta. Consequentemente, o teste F tem um valor p baixo (está dizendo que os preditores juntos são altamente significativos na explicação da variação na variável resposta). Mas o teste t para cada preditor tem um alto valor de p porque, depois de permitir o efeito do outro preditor, não há muito o que explicar.


Oi Rob, desculpe por incomodá-lo. Eu li a sua resposta (porque estou enfrentando a situação da pergunta agora), mas não consigo entender o que você quer dizer com "depois de permitir o efeito do outro preditor, não há muito o que explicar". Posso pedir que você me explique isso? Muito obrigado.
yue86231

11
@ yue86231 Isso significa que, embora tenhamos um valor p para cada preditor, não podemos interpretar cada valor p isoladamente. Cada teste t preditor só pode mostrar a significância de uma variável após contabilizar a variação explicada por todas as outras variáveis. Os coeficientes de regressão linear e o erro padrão são produzidos ao mesmo tempo, por assim dizer, e os dois preditores reduzem a significância um do outro.
Robert Kubrick

11

Considere o seguinte modelo: , , , , e são todos independentes .X1N(0,1)X2=aX1+δY=bX1+cX2+ϵδϵX1N(0,1)

Então

Cov(X2,Y)=E[(aX1+δ)(bX1+cX2+ϵ)]=E[(aX1+δ)({b+ac}X1+cδ+ϵ)]=a(b+ac)+c

Podemos definir esta a zero com dizer , e . No entanto, todas as relações obviamente estarão lá e serão facilmente detectáveis ​​com a análise de regressão.b = 2 c = - 1a=1b=2c=1

Você disse que entende a questão de as variáveis ​​serem correlacionadas e a regressão ser insignificante melhor; provavelmente significa que você foi condicionado pela menção frequente de multicolinearidade, mas seria necessário aumentar sua compreensão da geometria dos mínimos quadrados.


10

Uma palavra-chave a ser pesquisada seria "colinearidade" ou "multicolinearidade". Isso pode ser detectado usando diagnósticos como fatores de inflação de variação (VIFs) ou métodos descritos no livro "Diagnósticos de regressão: identificando dados influentes e fontes de colinearidade" de Belsley, Kuh e Welsch. Os VIFs são muito mais fáceis de entender, mas não conseguem lidar com a colinearidade envolvendo a interceptação (ou seja, preditores quase constantes por si mesmos ou em uma combinação linear) - por outro lado, os diagnósticos de BKW são muito menos intuitivos, mas podem lidar com a colinearidade envolvendo a interceptação.


9

A resposta que você recebe depende da pergunta que você faz. Além dos pontos já apresentados, os valores individuais dos parâmetros F e os valores gerais do modelo F respondem a perguntas diferentes, para que eles obtenham respostas diferentes. Eu já vi isso acontecer mesmo quando os valores individuais de F não são tão significativos, especialmente se o modelo tiver mais de 2 ou 3 IVs. Não conheço nenhuma maneira de combinar os valores-p individuais e obter algo significativo, embora possa haver uma maneira.


2
(-1) Sim - o pôster original está notando que ele / ela também aconteceu. A questão era o que exatamente são algumas coisas que podem causar isso além da colinearidade e não vejo como isso é uma resposta.
Macro

4
@ Macac O voto negativo parece um pouco duro, porque há uma observação útil e válida nesta resposta: os testes de significância geral e de variável variável individual "respondem a perguntas diferentes". É certo que é qualitativo, mas não mais do que a primeira resposta com muitos votos positivos; e a essa resposta acrescenta alguma intuição válida, sem dúvida tornando-a uma melhoria em relação a essa resposta.
whuber

11
Eu nunca disse que não havia informações ou intuição válidas fornecidas por esta resposta. Se eu tivesse uma boa resposta para essa pergunta, já teria respondido - é uma pergunta difícil - só estava dizendo que essa resposta parece não responder à pergunta em nenhum sentido da palavra.
Macro

9

Outra coisa a ter em mente é que os testes dos coeficientes individuais assumem que todos os outros preditores estão no modelo. Em outras palavras, cada preditor não é significativo desde que todos os outros preditores estejam no modelo. Deve haver alguma interação ou interdependência entre dois ou mais de seus preditores.

Como alguém mais perguntou acima - como você diagnosticou a falta de multicolinearidade?


4

Uma maneira de entender isso é a geometria dos mínimos quadrados, como sugere o @StasK.

Outra é perceber que isso significa que X está relacionado a Y ao controlar as outras variáveis, mas não sozinho. Você diz que X se refere à variação única em Y. Isso está certo. A variação única em Y, no entanto, é diferente da variação total. Então, que variação as outras variáveis ​​estão removendo?

Ajudaria se você pudesse nos contar suas variáveis.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.