Inverter o sinal ao adicionar mais uma variável em regressão e com magnitude muito maior

9

Configuração básica:

modelo de regressão: que C é o vetor de variáveis de controle. $y = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon$

Estou interessado em e espero que e sejam negativos. No entanto, existe um problema de multicolinearidade no modelo, o coeficiente de correlação é dado por, corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019. $\beta$ $\beta_1$ $\beta_2$ $x_1$ $x_2)=$ $x_1$ $x_3)=$ $x_2$ $x_3)=$

Portanto, e são altamente correlacionados e devem praticamente fornecer as mesmas informações. Eu corro três regressões: $x_1$ $x_2$

excluir variável ; 2. excluir variável ; 3. modelo original com e . $x_1$ $x_2$ $x_1$ $x_2$

Resultados:
Para a regressão 1 e 2, fornece o sinal esperado para e respectivamente e com magnitude semelhante. E e são significativos no nível de 10% em ambos os modelos depois que eu faço a correção HAC no erro padrão. é positivo, mas não significativo nos dois modelos. $\beta_2$ $\beta_1$ $\beta_2$ $\beta_1$ $\beta_3$

Mas para 3, tem o sinal esperado, mas o sinal para é positivo com a magnitude duas vezes maior que em valor absoluto. E e são insignificantes. Além disso, a magnitude para reduz quase pela metade em comparação com a regressão 1 e 2. $\beta_1$ $\beta_2$ $\beta_1$ $\beta_1$ $\beta_2$ $\beta_3$

Minha pergunta é:

Por que em 3, o sinal de se torna positivo e muito maior que em valor absoluto? Existe alguma razão estatística para que possa virar sinal e ter grande magnitude? Ou é porque os modelos 1 e 2 sofrem problema variável omitido que inflacionou desde que tenha efeito positivo em y? Porém, no modelo de regressão 1 e 2, e devem ser positivos em vez de negativos, pois o efeito total de e no modelo de regressão 3 é positivo. $\beta_2$ $\beta_1$ $\beta_2$ $\beta_3$ $x_2$ $\beta_2$ $\beta_1$ $x_1$ $x_2$

regression multicollinearity

— ting
fonte

8

Pense neste exemplo:

Colete um conjunto de dados com base nas moedas nos bolsos dos povos, a variável y resposta é o valor total das moedas, a variável x1 é o número total de moedas e x2 é o número de moedas que não são quartos (ou qualquer que seja o maior valor das moedas comuns são para o local).

É fácil ver que a regressão com x1 ou x2 daria uma inclinação positiva, mas ao incluir ambos no modelo, a inclinação em x2 seria negativa, pois aumentar o número de moedas menores sem aumentar o número total de moedas significaria substituir moedas grandes com moedas menores e reduzindo o valor total (y).

O mesmo pode acontecer sempre que houver variáveis x correlacionadas, os sinais podem ser facilmente opostos entre quando um termo é por si só e na presença de outros.

— Greg Snow
fonte

3

Você respondeu sua própria pergunta - há colinearidade.

Um pouco de explicação: e são altamente colineares. Mas quando você insere ambos na regressão, a regressão está tentando controlar o efeito das outras variáveis. Em outras palavras, mantenha constante, o que as alterações em fazem em . Mas o fato de serem tão altamente relacionados significa que essa pergunta é tola e coisas estranhas podem acontecer. $x_1$ $x_2$ $x_1$ $x_2$ $y$

— Peter Flom - Restabelece Monica
fonte

Muito obrigado. Mas como a multicolinearidade, em teoria, apenas inflaciona a variância, mas não afeta o poder de previsão geral das variáveis altamente correlacionadas, então pensei que no modelo 3 deve fornecer resultados semelhantes a no modelo 1 ou no modelo 2, uma vez que a correlação pareada de x1 x2 com x3 não é alta (na verdade, esta é a minha parte confusa). Mas como a correlação pode ser realmente confusa e, na prática, não devo esperar isso, pois meu modelo é apenas uma aproximação do DGP e a correlação com outras variáveis é importante.

β_{1} * x 1 + β_{2} * x 2

$\beta_1*x1+\beta_2*x2$

β_{2} * x 2

$\beta_2*x2$

β_{1} * x 1

$\beta_1*x1$

— ting

Se você quiser entrar na matemática disso, recomendo os livros de David Belsley.

— Peter Flom - Restabelece Monica

Ótimo, muito obrigado !!! Acabei de solicitar os livros da biblioteca :)

— ting

2

Por que em 3, o sinal de β2 se torna positivo e muito maior que β1 em valor absoluto? Existe alguma razão estatística para que β2 possa virar sinal e ter grande magnitude?

A resposta simples é que não há uma razão profunda.

A maneira de pensar sobre isso é que, quando a multicolinearidade se aproxima da perfeição, os valores específicos que você acaba obtendo do acessório tornam-se cada vez mais dependentes de detalhes cada vez menores dos dados. Se você coletar a mesma quantidade de dados da mesma distribuição subjacente e ajustar, poderá obter valores ajustados completamente diferentes.

— oneloop
fonte