Por que o erro de medição na variável dependente não influencia os resultados?

10

Quando há erro de medição na variável independente, entendi que os resultados serão enviesados contra 0. Quando a variável dependente é medida com erro, eles dizem que apenas afeta os erros padrão, mas isso não faz muito sentido para mim, porque estamos estimar o efeito de não na variável original mas em alguma outra mais um erro. Então, como isso não afeta as estimativas? Nesse caso, também posso usar variáveis instrumentais para remover esse problema? $X$ $Y$ $Y$

regression econometrics instrumental-variables

— TomCat
fonte

16

Quando você deseja estimar um modelo simples como e, em vez do verdadeiro você apenas o observa com algum erro que é tal que é não correlacionado com e , se você regredir seu estimado é

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

{\tilde{Y}}_{i} = Y_{i} + ν_{i}

$\widetilde{Y}_i = Y_i + \nu_i$

X

$X$

ϵ

$\epsilon$

{\tilde{Y}}_{i} = α + β X_{i} + ϵ_{i}

$\widetilde{Y}_i = \alpha + \beta X_i + \epsilon_i$

β

$\beta$

\begin{aligned} \hat{β} & = \frac{C o v ({\tilde{Y}}_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (Y_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α + β X_{i} + ϵ_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α, X_{i})}{V a r (X_{i})} + β \frac{C o v (X_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ϵ_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ν_{i}, X_{i})}{V a r (X_{i})} \\ = β \frac{V a r (X_{i})}{V a r (X_{i})} \\ = β \end{aligned}

$\begin{align} \widehat{\beta} &= \frac{Cov(\widetilde{Y}_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(Y_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha + \beta X_i + \epsilon_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha ,X_i)}{Var(X_i)} + \beta\frac{Cov(X_i,X_i)}{Var(X_i)} + \frac{Cov(\epsilon_i,X_i)}{Var(X_i)} + \frac{Cov(\nu_i,X_i)}{Var(X_i)} \newline &= \beta \frac{Var(X_i)}{Var(X_i)} \newline &= \beta \end{align}$ porque a covariância entre um A variável aleatória e uma constante ( ) são zero, bem como as covariâncias entre e pois assumimos que elas não estão correlacionadas.

α

$\alpha$

X_{i}

$X_i$

ϵ_{i}, ν_{i}

$\epsilon_i, \nu_i$

Então você vê que seu coeficiente é estimado consistentemente. A única preocupação é que fornece um termo adicional no erro que reduz o poder de seus testes estatísticos. Em casos muito ruins desse erro de medição na variável dependente, você pode não encontrar um efeito significativo, mesmo que possa estar lá na realidade. Geralmente, as variáveis instrumentais não o ajudarão neste caso, porque elas tendem a ser ainda mais imprecisas que o OLS e só podem ajudar com erros de medição na variável explicativa. $\widetilde{Y}_i = Y_i + \nu_i = \alpha + \beta X_i + \epsilon_i + \nu_i$

— Andy
fonte

Tenho uma pergunta simples aqui: e se o νi, que é o erro de medida na variável dependente, estiver correlacionado com a variável independente de interesse? Eu imagino que há muitas possibilidades de que isso possa acontecer e o viés de desejabilidade social pode ser um exemplo. Se os respondentes da pesquisa tiveram um viés de desejabilidade social ao responder ao (s) questionário (s) da variável dependente e se essa desejabilidade estava relacionada à variável independente, digamos idade ou sexo (que pode estar relacionado com a desejabilidade social), o que acontece em termos de endogeneidade então?

— Kang Inkyu

3

A análise de regressão responde à pergunta: "Qual é o valor MÉDIO Y para quem forneceu valores X?" ou, equivalentemente, "Quanto é previsto que Y mude EM MÉDIA se trocarmos X por uma unidade?" O erro de medição aleatória não altera os valores médios de uma variável ou os valores médios para subconjuntos de indivíduos, portanto, o erro aleatório na variável dependente não influencia as estimativas de regressão.

Digamos que você tenha dados de altura em uma amostra de indivíduos. Essas alturas são medidas com muita precisão, refletindo com precisão a verdadeira estatura de todos. Dentro da amostra, a média para homens é 175 cm e a média para mulheres é 162 cm. Se você usar a regressão para calcular quão bem o sexo prediz altura, estimará o modelo

$\mathit{HEIGHT = CONSTANT + β * GENDER + RESIDUAL}$

Se as mulheres são codificadas como 0 e os homens como 1, é a média feminina, ou 162 cm. O coeficiente de regressão mostra quanta altura muda ON MÉDIA quando você altera por uma unidade (de 0 a 1). é igual a 13 porque pessoas cujo valor para é 0 (mulheres) têm uma altura média de 162 cm, enquanto pessoas cujo valor para é 1 (homens) têm uma altura média de 175 cm; estima a diferença média entre as alturas de homens e mulheres, que é de 13 cm. ( reflete a variação de altura dentro do sexo.) $\mathit{CONSTANT}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{RESIDUAL}$

Agora, se você adicionar aleatoriamente -1 cm ou +1 cm à altura real de todos, o que acontecerá? Indivíduos cuja altura real é, digamos, 170 cm serão agora relatados como sendo 169 ou 171 cm. No entanto, a média da amostra, ou qualquer subamostra, não será alterada. Aqueles cuja altura real é 170 cm terão uma média de 170 cm no novo conjunto de dados incorreto, as mulheres terão uma média de 162 cm etc. Se você executar novamente o modelo de regressão especificado acima usando esse novo conjunto de dados, o valor (esperado) de não será alterado porque a diferença média entre homens e mulheres ainda é de 13 cm, independentemente do erro de medição. (O erro padrão de será maior que antes, porque a variação da variável dependente agora é maior.) $\mathit{β}$ $\mathit{β}$

Se houver um erro de medição na variável independente, e não na variável dependente, será uma estimativa tendenciosa. Isso é fácil de entender quando você considera o exemplo de altura. Se houver um erro aleatório de medição na variável , alguns homens serão erroneamente codificados como femininos e vice-versa. O efeito disso é reduzir as diferenças aparentes de gênero na altura, porque mover homens para o grupo feminino fará com que a média feminina seja maior, enquanto mover mulheres para o grupo masculino fará com que o masculino seja menor. Com erro de medição na variável independente, será menor que o valor imparcial de 13 cm. $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$

Enquanto eu usei uma variável independente categórica ( ) para simplificar aqui, a mesma lógica se aplica a variáveis contínuas. Por exemplo, se você usasse uma variável contínua como a altura do nascimento para prever a altura do adulto, o valor esperado de seria o mesmo, independentemente da quantidade de erro aleatório nas medidas de altura do adulto. $\mathit{GENDER}$ $\mathit{β}$

— user175057
fonte