Estimando

14

Eu tenho um modelo econômico teórico que é o seguinte,

y = a + b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3} + u

$y = a + b_1x_1 + b_2x_2 + b_3x_3 + u$

Então a teoria diz que existem $x_1$ , $x_2$ e $x_3$ fatores para estimar $y$ .

Agora eu tenho os dados reais e preciso estimar $b_1$ , , . O problema é que o conjunto de dados real contém apenas dados para e ; não há dados para . Portanto, o modelo em que posso encaixar é: $b_2$ $b_3$ $x_1$ $x_2$ $x_3$

y = a + b_{1} x_{1} + b_{2} x_{2} + u

$y = a + b_1x_1 + b_2x_2 + u$

Tudo bem estimar esse modelo?
Perco alguma coisa estimando isso?
Se eu estimar , , para onde vai o termo ? $b_1$ $b_2$ $b_3x_3$
É explicado pelo termo de erro ? $u$

E gostaríamos de assumir que não está correlacionado com e . $x_3$ $x_1$ $x_2$

regression multiple-regression endogeneity

— renatia
fonte

Você pode fornecer detalhes sobre seu conjunto de dados, quero dizer, sua variável dependente

e variáveis independentes

e

?

y

$y$

x_{1}

$x_1$

x_{2}

$x_2$

— Vara

Pense nisso como exemplo hypothethical sem conjunto de dados específico ...

— renathy

20

O problema com o qual você precisa se preocupar é chamado de endogeneidade . Mais especificamente, depende se está correlacionado na população com ou . Se for, os s associados serão enviesados. Isso é porque MQO métodos de regressão forçar os resíduos, , para ser não correlacionado com os seus co-variáveis, s. No entanto, os resíduos são compostas de alguma aleatoriedade irredutível, , e a variável não observada (mas relevante), , que por estipulação $x_3$ $x_1$ $x_2$ $b_j$ $u_i$ $x_j$ $\varepsilon_i$ $x_3$ está correlacionado com e / ou . Por outro lado, se ambos e são não correlacionadas com na população, então o seu s não será influenciada por isso (que pode muito bem ser tendencioso por outra coisa, é claro). Uma maneira pela qual os economistas tentam lidar com esse problema é usando variáveis instrumentais . $x_1$ $x_2$ $x_1$ $x_2$ $x_3$ $b$

Para maior clareza, escrevi uma simulação rápida em R que demonstra que a distribuição amostral de é imparcial / centrada no valor real de , quando não está correlacionado com . Na segunda execução, no entanto, observe que não está correlacionado com , mas não . Não por coincidência, é imparcial, mas é tendencioso. $b_2$ $\beta_2$ $x_3$ $x_3$ $x_1$ $x_2$ $b_1$ $b_2$

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

— Repor a Monica
fonte

Então, você pode explicar um pouco mais - o que acontece se assumirmos que x3 não está correlacionado com $ x_1 e x2? Então o que acontece se eu estimar y = a + b1x1 + b2x2 + u?

— 11133 renathy

1

será incorporado nos resíduos de qualquer maneira, massenão for correlacionado na população, seus outros

não serão influenciados pela ausência de

, mas se não for correlacionado, serão.

b_{3} x_{3}

$b_3x_3$

b

$b$

x_{3}

$x_3$

— gung - Restabelece Monica

Para declarar isso com mais clareza: Se

não estiver correlacionado com

ou

, você estará bem.

x_{3}

$x_3$

x_{1}

$x_1$

x_{2}

$x_2$

— gung - Restabelece Monica

Discuto o outro lado dessa questão na minha resposta aqui: adicionar mais variáveis a uma regressão multivariável altera os coeficientes das variáveis existentes?

— gung - Restabelece Monica

3

Vamos pensar nisso em termos geométricos. Pense em uma "bola", a superfície de uma bola. É descrito como . Agora, se você possui os valores de , , e tem medidas de , pode determinar seus coeficientes "a", "b" e "c". (Você pode chamá-lo de elipsóide, mas chamá-lo de bola é mais simples.) $r^2 = ax^2+by^2+cz^2 + \epsilon$ $x^2$ $y^2$ $z^2$ $r^2$

Se você tiver apenas os termos e , poderá fazer um círculo. Em vez de definir a superfície de uma bola, você descreverá um círculo preenchido. A equação que você ajustou é . $x^2$ $y^2$ $r^2 \le ax^2 + by^2 + \epsilon$

Você está projetando a "bola", qualquer que seja a forma, na expressão do círculo. Pode ser uma "bola" orientada na diagonal que tem o formato mais parecido com uma agulha de costura e, portanto, os componentes destroem completamente as estimativas dos dois eixos. Pode ser uma bola que parece um m & m quase esmagado, onde os eixos das moedas são "x" e "y", e não há projeção zero. Você não pode saber qual é sem a informação " ". $z$ $z$

Esse último parágrafo estava falando sobre um caso de "informação pura" e não explicava o barulho. As medições do mundo real têm o sinal com ruído. O ruído ao longo do perímetro alinhado aos eixos terá um impacto muito mais forte no seu ajuste. Mesmo que você tenha o mesmo número de amostras, você terá mais incerteza nas estimativas de parâmetros. Se for uma equação diferente desse caso simples orientado a eixo linear, as coisas podem ficar " em forma de pêra ". Suas equações atuais são em forma de plano; portanto, em vez de ter um limite (a superfície da bola), os dados z podem percorrer todo o mapa - a projeção pode ser um problema sério.

Está tudo bem em modelar? Essa é uma decisão judicial. Um especialista que entende os detalhes do problema pode responder a isso. Não sei se alguém pode dar uma boa resposta se estiver longe do problema.

Você perde várias coisas boas, incluindo a certeza nas estimativas de parâmetros e a natureza do modelo que está sendo transformado.

$b_3$

— EngrStudent - Restabelecer Monica
fonte

1

4 π r^{2}

$4\pi r^2$

f (x, y, z)

$f(x,y,z)$

Não consigo seguir seu argumento porque não vejo nada que corresponda a um "quadrado preenchido".

— whuber

0

As outras respostas, embora não estejam erradas, complicam um pouco a questão.

$x_3$ $x_1$ $x_2$ $\beta_3 x_3$

— Daniel Ludwinski
fonte