[O texto a seguir talvez pareça um pouco técnico por causa do uso de equações, mas ele se baseia principalmente nas tabelas de flechas para fornecer a intuição que requer apenas uma compreensão muito básica do OLS - portanto, não fique com repulsa.]
Suponha que você queira estimar o efeito causal de em y i dado pelo coeficiente estimado para β , mas por alguma razão, existe uma correlação entre sua variável explicativa e o termo de erro:xiyiβ
yi=α+βxi+↖corrϵi↗
Isso pode ter acontecido porque esquecemos de incluir uma variável importante que também se correlaciona com . Este problema é conhecido como viés de variável omitida e, em seguida, o seu β não vai lhe dar o efeito causal (ver aqui para mais detalhes). Este é um caso em que você deseja usar um instrumento, porque somente então poderá encontrar o verdadeiro efeito causal.xiβˆ
Um instrumento é uma variável nova que não está correlacionada com ε i , mas que se correlaciona bem com x i e que apenas influências y i através x i - por isso o nosso instrumento é o que é chamado de "exógena". É como neste gráfico aqui:zEuϵEuxEuyEuxEu
zEu→xEu↑ϵEu→↗yEu
Então, como usamos essa nova variável?
Talvez você se lembre da ideia do tipo ANOVA por trás da regressão, onde você divide a variação total de uma variável dependente em um componente explicado e um inexplicado. Por exemplo, se você regredir seu no instrumento,xEu
xEuvariação total= a+πzEuvariação explicada+ ηEuvariação inexplicada
então você sabe que a variação explicada aqui é exógena à nossa equação original porque depende apenas da variável exógena . Então, nesse sentido, dividimos nosso x i -se em uma parte que podemos afirmar é certamente exógena (que é a parte que depende z i ) e alguma parte inexplicável η i que mantém todas as más variação que se correlaciona com ε i . Agora pegamos a parte exógena dessa regressão, chamamos de ^ x i ,zEuxEuzEuηEuϵEuxEuˆ
xEu= a+πzEuboa variação=xˆEu+ ηEuvariação ruim
e colocar este em nosso regressão original:
yEu= α + βxˆEu+ ϵEu
Agora, uma vez x i não é mais correlacionado com ε i (lembre-se, nós "filtrados" esta parte de x i e deixou-o em η i ), podemos consistentemente estimar nossa β porque o instrumento tem nos ajudado a quebrar a correlação entre a variável explicativa e o erro. Essa foi uma maneira de aplicar variáveis instrumentais. Este método é realmente chamado de 2 estágios mínimos quadrados, onde a nossa regressão de x i on z i é chamado de "primeira fase" e a última equação aqui é chamado de "segundo estágio".xˆEuϵEuxEuηEuβxEuzEu
Em termos de nossa imagem original (I deixar de fora o para não fazer uma bagunça, mas lembre-se que ele está lá!), Em vez de tomar a rota direta, mas falho entre x i para y i demos um passo intermediário via x iϵEuxEuyEuxˆEu
zEu→xEu↗→xˆEu↓yEu
Graças a esse leve desvio de nosso caminho para o efeito causal, conseguimos estimar consistentemente usando o instrumento. O custo desse desvio é que os modelos de variáveis instrumentais geralmente são menos precisos, o que significa que eles tendem a ter erros padrão maiores.β
Como encontramos instrumentos?
Essa não é uma pergunta fácil, porque você precisa explicar por que seu não estaria correlacionado com ϵ i - isso não pode ser testado formalmente porque o erro verdadeiro não é observado. O principal desafio é, portanto, apresentar algo que possa ser visto de maneira plausível como exógeno, como desastres naturais, mudanças nas políticas ou, às vezes, você pode até fazer um experimento aleatório. As outras respostas tiveram alguns exemplos muito bons para isso, então não vou repetir esta parte.zEuϵEu