Esta é a pergunta muito padrão sobre variáveis instrumentais de modelos lineares de equação única. Dadas as primitivas da sua pergunta, a única variável endógena é o exercício . Para responder a essa pergunta específica, você precisa de uma variável exótica, z , que satisfaça duas condições:
- cov (z, u) = 0.
- Deve haver uma relação entre a variável endógena e essa variável exógena que você está propondo, mas ela não fazia parte do verdadeiro modelo postulado (o modelo estrutural). Em outras palavras,
com , e ortogonal a todas as suas variáveis explicativas (que não sejam exercício) e z.
exercise=β0+β1age+β2weight+β3height+β4male+β5work+ϕz+εexercise
ϕ≠0E(εexercise)=0
Antes de prosseguir, uma observação. Por modelo estrutural, quero dizer, seguindo a convenção de Wooldridge e Goldberger, o modelo postulado. Ou seja, o modelo que afirma a relação causal entre a saúde e suas covariáveis. Esta é uma diferença fundamental e um desacordo com as respostas anteriores.
Agora, voltando ao problema em questão, a condição 2 é o que na literatura de equações simultâneas chama de equação de forma reduzida , que nada mais é do que uma projeção linear do endógeno em todas as variáveis exógenas, incluindo z.
Agora, conecte o formulário reduzido ao seu modelo postulado e você obterá
health=α0+α1age+α2weight+α3height+α4male+α5work+δz+ν
onde , e . Pela definição de projeção linear, não está correlacionado com todas as variáveis explicativas e, portanto, o OLS dessa última equação produzirá estimativas consistentes para e , e não o subjacente no modelo verdadeiro.
αi=bi+b6βi,∀i∈{1,…,5}δ=b6ϕν=u+b6εexerciseναiδbi
A identificação requer um pouco de manipulação na forma de matriz, mas essencialmente se reduz à chamada condição de classificação . Defina e para que seu modelo estrutural seja . Agora defina . Pela condição 1 (cov (z, u) = 0, de modo que E (z, u) = 0),
Se você multiplicar os lados do modelo estrutural por e tomar as expectativas que você tem
Posição condição estados quex = ( 1 , a g e , … , e x e r c i s e ) ′b=(b0,…,b6)′x=(1,age,…,exercise)′health=x′b+uz≡(1,age,…,work,z)′
E(zu)=0
zE(zx′)b=E(zy)
E(zx′)é a classificação da coluna completa. Neste exemplo em particular e dadas condições em z, isso equivale à Portanto, temos 6 equações em 6 incógnitas. Portanto, existe um único solução para o sistema, isto é, é identificada e é igual a , conforme desejado.
b [ E ( z x ′ ) ] - 1 E ( z y )rank(E(zx′)=6b[E(zx′)]−1E(zy)
Comentários: A condição 1 é útil para obter a condição de momento, mas o modelo de formulário reduzido com é crucial para a condição de classificação. Ambas as condições são usuais.ϕ
Neste ponto, deve ficar claro por que precisamos disso. Por um lado, sem z, o estimador OLS do modelo verdadeiro produzirá estimadores inconsistentes, não apenas para mas para todos os . Por outro lado (e um pouco relacionados), nossos parâmetros são identificados de forma exclusiva, portanto, temos certeza de que estamos estimando a verdadeira relação causal, conforme declarado em nosso verdadeiro modelo.b ib6bi
Em relação ao teste, a condição 2 (z e exercício estão parcialmente correlacionados) pode ser testada diretamente e você deve sempre relatar esse passo contrário ao comentário em uma resposta anterior. Existe uma enorme literatura em relação a esta etapa, especialmente a literatura de instrumentos fracos.
A segunda condição não pode ser diretamente testada, no entanto. Às vezes, você pode invocar a teoria econômica para justificar ou fornecer hipóteses alternativas que suportem o uso de z.