Para responder à sua primeira pergunta, você está certo de que a seleção de amostras é uma forma específica de endogeneidade (consulte Antonakis et al. 2010 para obter uma boa revisão básica da endogeneidade e dos remédios comuns); no entanto, você não está certo ao dizer que a probabilidade de ser tratado é a variável endógena, pois é a própria variável de tratamento ("atribuição de tratamento não aleatório") - e não a probabilidade de ser tratado - que é endógena na seleção da amostra. Lembre-se de que a endogeneidade se refere a uma situação em que você identificou incorretamente uma relação causal entre o fator X e o fator Y, quando a “relação” observada é realmente devida a outro fator Z que afeta X e Y. Em outras palavras, dado um modelo de regressão :
yi=β0+β1xi+...+ϵi
a endogeneidade ocorre quando um ou mais de um de seus preditores está relacionado ao termo de erro no modelo. Ou seja, quando .Cov(x,ϵ)≠0
As causas comuns de endogenidade incluem:
- Variáveis omitidas (algumas coisas que simplesmente não podemos medir)
- Motivação / escolha
- Capacidade / talento
- Auto-seleção
- Erro de medição
(gostaríamos de incluir , mas apenas observamos x j ∗ )xjxj∗
- Simultaneidade / bidirecionalidade (em crianças menores de 5 anos, a relação entre o indicador do estado nutricional “peso por idade” e se a criança teve uma doença recente pode ser simultânea.
Diferentes tipos de problemas requerem soluções ligeiramente diferentes, e é aí que reside a diferença entre as correções do tipo IV e do tipo Heckman. Certamente, existem diferenças na mecânica subjacente desses métodos, mas a premissa é a mesma: remover a endogeneidade, idealmente através de uma restrição de exclusão, ou seja, um ou mais instrumentos no caso de IV ou uma variável que afeta a seleção, mas não a o resultado no caso de Heckman.
Para responder sua segunda pergunta, você deve pensar nas diferenças nos tipos de limitações de dados que deram origem ao desenvolvimento dessas soluções. Eu gosto de pensar que a abordagem da variável instrumental (IV) é usada quando uma ou mais variáveis são endógenas, e simplesmente não existem bons proxies para colar no modelo para remover a endogeneidade, mas as covariáveis e os resultados são observados para todas as observações. As correções do tipo Heckman, por outro lado, são usadas quando você tem truncamento, ou seja, as informações não são observadas para aqueles na amostra em que o valor da variável de seleção == 0.
A abordagem da variável instrumental (IV)
Pense no exemplo econométrico clássico para regressão IV com o estimador de mínimos quadrados de dois estágios (2SLS): o efeito da educação sobre os ganhos.
(1)Earningsi=β0+β1OwnEdi+ϵi
Aqui, o nível de desempenho educacional é endógeno porque é determinado em parte pela motivação e capacidade do indivíduo, os quais também afetam os ganhos de uma pessoa. A motivação e a capacidade geralmente não são medidas em pesquisas domésticas ou econômicas. A equação 1 pode, portanto, ser escrita para incluir explicitamente motivação e habilidade:
(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi
Uma vez que e uma b i l não são realmente observado, a equação 2 pode ser escrito como:MotivAbil
(3),Earningsi=β0+β1OwnEdi+ui
onde (4).ui=β2Motivi+β3Abili+ϵi
Portanto, uma estimativa ingênua do efeito da educação sobre os ganhos via OLS seria enviesada. Esta parte você já conhece.
No passado, as pessoas usavam a educação dos pais como instrumentos para o nível de educação da própria pessoa, pois atendiam aos 3 requisitos para um instrumento válido ( ):z
- deve estar relacionado ao preditor endógeno - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0 ,zCov(z,x)≠0
- z não pode estar diretamente relacionado ao resultado - eCov(z,y)=0
- não pode estar relacionado à característica não observável (u) (ou seja,z é exógena) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) = 0zCov(z,u)=0
Ao estimar o ensino do tema ( ) usando a educação dos pais ( H O m E d e D um d E d ) na primeira fase e utilizar o valor previsto de ensino ( ^ O w n E d ) a estimativa E um r n i n g s a segunda fase, que está (em termos muito simplista), estimando E um r n i n g s com base na porção deOwnEdMomEdDadEdOwnEdˆEarningsEarnings que não é determinada por motivação / capacidade.OwnEd
Correções do tipo Heckman
Como estabelecemos anteriormente, a seleção de amostras não aleatórias é um tipo específico de endogeneidade. Nesse caso, a variável omitida é como as pessoas foram selecionadas na amostra. Normalmente, quando você tem um problema de seleção de amostra, seu resultado é observado apenas para aqueles para quem a seleção é feita variable == 1
. Esse problema também é conhecido como "truncamento incidental" e a solução é comumente conhecida como correção de Heckman. O exemplo clássico em econometria é a oferta salarial de mulheres casadas:
Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi
Wages
Wage∗i=Xβ′+ϵi
LaborForce∗i=Zγ′+νi
Wage=Wage∗iLaborForce∗i>0Wage=.LaborForce∗i≤0
λ^λ^λ^λ^ é estatisticamente diferente de zero, você precisará relatar os coeficientes do modelo corrigido.
Referências
- Antonakis, John, Samuel Bendahan, Philippe Jacquart e Rafael Lalive. 2010. “Sobre reivindicações causais: uma revisão e recomendações.” The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009. Econometria Introdutória: Uma Abordagem Moderna. 4th ed. Mason, OH, EUA: Sudoeste, Aprendizado Cengage.