O que acontece se as "variáveis ​​de controle" também forem endógenas?


13

Trabalho na Economia Política, e muitos dos modelos incluem variáveis ​​de controle "inocentes", como população, desigualdade, legado colonial, etc., para que o autor possa reivindicar imparcialidade em relação a sua variável independente de interesse.

Mas se alguma dessas variáveis ​​de controle é endógena a alguma variável omitida, isso não contamina a imparcialidade de TODAS as variáveis ​​independentes?

Se isso é verdade, então o que podemos fazer? Deixe essas variáveis ​​de controle de fora e elas causam o próprio viés de variável omitido. Inclua esses itens e eles contaminarão tudo no modelo.

Exemplo: Um investigador quer saber se os cabos de desigualdade para violência, e ele controla para algumas coisas:

Violence=Inequality+Growth+Development+ϵ
Ver que a desigualdade provavelmente é endógena (por causa da variável omitida Nível de altruísmo), ele tentará encontrar uma variável instrumental para a desigualdade . Mas o crescimento e o desenvolvimento provavelmente não são endógenos (isto é, correlacionados com o nível de altruísmo ) também?

Esse exemplo pode parecer tolo, mas meu argumento é sobre o trabalho de Economia Política / Desenvolvimento; há tantos fatores em jogo (ainda omitidos) que receio que muitas variáveis ​​incluídas no LHS sejam endógenas. No entanto, muitas vezes, o pesquisador procura apenas um instrumento apenas para sua variável independente de estimação.


Ainda outra coisa a considerar é a questão do "controle ruim" - uma situação em que o controle é uma variável de resultado propriamente dita. Eu sugiro que você leia a Seção 3.2.3 na célebre "Econometria Inofensiva" de Angrist e Pischke para entender melhor este tópico e por que é importante se você deseja entender melhor sua pergunta.
MauOlivares

Respostas:


10

"Mas se alguma dessas variáveis ​​de controle é endógena a alguma variável omitida, isso não contamina a imparcialidade de TODAS as variáveis ​​independentes?"

Não quero enfatizar muito isso, mas vale a pena mencionar que isso não é verdade em geral. Esperamos que a derivação a seguir forneça alguma compreensão da "contaminação" mencionada. Como um contra-exemplo simples, suponha que o processo de geração de dados seja dado por onde Z não é observado. Vamos C O v ( X 1 , Z ) = 0 , C O v ( X 2 , Z ) 0 e C o v (

Y=X1β1+X2β2+Zγ+ε,
ZCov(X1,Z)=0Cov(X2,Z)0 . Então, fica claro que X 2 é "endógeno". Mas observe que, como C o v ( X 1 , Z ) = 0 , nossa estimativa de β 1 ainda estará correta : plimCov(X1,X2)=0X2Cov(X1,Z)=0β1 ondeX1 =M2X1eM2=[I-X2(X2 X2)-1X2 ]. PorqueCov(X1,X2)=0,X1
plimβ^1=β1+γCov(X1,Z)Var(X1)=β1,
X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0 . Então C o v ( X 1 , Z ) = 0 .X1=X1Cov(X1,Z)=0 0

"O que podemos fazer?"

Um dos principais desafios de se fazer uma boa econometria é pensar em possíveis estratégias de identificação. No tipo de situação que você descreve, provavelmente não há nada que você possa fazer além de tentar abordar o problema de uma maneira diferente.


Enquanto você estiver tecnicamente certo, eu não enfatizaria esse ponto. Eu prefiro dizer que, em geral, não podemos descartar a parcialidade de nenhuma das variáveis, em vez de dizer que em alguns cenários está tudo bem, bem, porque geralmente não conhecemos o DGP.
FooBar 28/01

1) Você poderia apontar-me a uma referência onde o β é derivado dessa maneira? Não fui ensinado isso na minha econometria. 2) Quando você usa C o v ( X 1 , Z ) = 0 na prova? Parece que C o v (β^Cov(X1,Z)=0 é suficiente. 3) que concorda com @FooBar que C O v ( X 1 , X 2 ) = 0 são a excepção e não a regra. De fato, se CCov(X1,X2)=0Cov(X1,X2)=0 , não nos preocuparíamos em controlar o X 2 em primeiro lugar (exceto para aumentar a precisão). Cov(X1,X2)=0X2
Heisenberg

@FooBar, eu concordo. Atualizei a postagem para enfatizar que este é um caso especial. No que diz respeito a não conhecer o DGP, isso é verdade. Mas esse não é o ponto. Qualquer análise deve fazer suposições sobre o DGP e a qualidade da análise depende da qualidade das suposições. A derivação que forneci serve apenas para ilustrar um exemplo das suposições (embora suposições muito fortes) que poderiam levá-lo aonde você gostaria de ir.
jmbejara

@Heisenberg: 1) Você poderia abrir uma nova pergunta principal sobre isso? Se você apenas copiar e colar a derivação e apresentar sua pergunta, seria melhor. 2) é necessário quando digo que C o v (Cov(X1,Z)=0 . 3) Você está certo. Se estivermos interessados ​​em prever Y , seria importante. Mas, sim, esse é um bom argumento. Por outro lado, talvez seja útil observar que o tamanho do viés depende de quão correlacionado você acredita que X 1 e XCov(X1,Z)=0YX1 para ser. X2
jmbejara

1
@jmbejara Postei 1) como uma pergunta separada . Sinta-se à vontade para editar minha pergunta / título, pois nesse caso não sei como expressar o título de maneira inteligente e útil para o Googler.
Heisenberg


5

No contexto da estimativa dos mínimos quadrados, a maneira como temos que (tentar) lidar com a possível endogeneidade dos regressores é através da estimativa das variáveis ​​instrumentais. Essa abordagem não depende de ter apenas um regressor endógeno - você pode ter muitos. Nesse caso, é claro que você precisa encontrar mais instrumentos que tornem as coisas mais difíceis - mas, em princípio, o método funcionará da mesma maneira.

A estimativa IV não resolve a questão do viés, apenas fornece consistência para o estimador. Mas nada resolve a questão da própria estrogenicidade da barra de viés (e existem alguns métodos de redução de viés). Mas se você der uma olhada em outro site do SE, o Cross Validated , que trata de estatísticas, verá que estatísticos experientes não dão muito peso à propriedade da imparcialidade - eles se concentram na eficiência do quadrado médio para propriedades finitas da amostra, e na consistência para grandes propriedades da amostra.


1
Portanto, a abordagem correta é encontrar instrumentos para todas as variáveis ​​endógenas, certo?
Heisenberg

1
Sim, é assim.
Alecos Papadopoulos

5

Este é um exemplo de que estatístico Andrew Gelman chama de "a falácia de controlar um resultado intermediário". Aqui está sua descrição dessa falácia aparecendo quando os pesquisadores perguntam se ter mais filhas muda sua política. A decisão de ter um segundo filho é necessariamente condicionada à decisão anterior de ter o primeiro filho e, portanto, parece um exemplo claro de controle da variável de decisão que era endógena.

Vários estudos foram realizados nos últimos anos analisando as decisões econômicas dos pais de filhos, em comparação com os pais de filhas ... Uma característica comum de todos esses estudos é que eles controlam o número total de filhos ... . À primeira vista, controlar o número total de crianças parece razoável. Há uma dificuldade, no entanto, em que o número total de crianças é um resultado intermediário, e controlá-lo (subconjuntando os dados com base em #kids ou usando #kids como variável de controle em um modelo de regressão) pode influenciar a estimativa do efeito causal de ter um filho (ou filha).

Para ver isso, suponha (hipoteticamente) que pais politicamente conservadores têm mais probabilidade de querer filhos e, se tiverem duas filhas, têm (hipoteticamente) mais chances de tentar um terceiro filho. Em comparação, é mais provável que os liberais parem com duas filhas. Nesse caso, se você observar dados de famílias com duas filhas, os conservadores ficarão sub-representados e os dados poderão mostrar uma correlação das filhas com o liberalismo político - mesmo que ter as filhas não tenha efeito algum! ...

Uma solução é aplicar a abordagem conservadora padrão (no sentido estatístico!) À inferência causal, que consiste em regredir na variável de tratamento (sexo do garoto), mas controlando apenas o que acontece antes do nascimento do garoto. Por exemplo, pode-se comparar pais cujo primeiro filho é menina com pais cujo primeiro filho é menino. Pode-se também olhar para o segundo nascimento, comparando pais cujo segundo filho é uma menina com aqueles cujo segundo filho é um menino - controlando o sexo do primeiro filho. E assim por diante para o terceiro filho, etc.

Ter filhos a torna mais conservadora? Talvez talvez não. Um problema ao controlar um resultado intermediário

Com relação ao seu comentário de que "deixe de fora essas variáveis ​​de controle e elas causam o próprio viés de variável omitida", isso parece depender de que tipo de instrumento você obtém. Um bom instrumento, que realmente satisfaça os requisitos, deve ser independente do termo de erro no segundo estágio e ser independente de tudo o que você controla diretamente . Ou seja, o instrumento muda Y somente através de X. Portanto, um instrumento adequado para a desigualdade deve ser independente do crescimento e desenvolvimento (boa sorte ao descobrir isso!) Se acreditarmos que a equação da violência é a equação estrutural da violência.


1

Como outros posts apontaram, os regressores endógenos podem contaminar todas as estimativas de parâmetros na regressão quando os regressores estão correlacionados.

X1X2X2X1

β^1X2X1X2

Considere o seguinte modelo (análogo à notação de @ jmbejara)

y=X1β1+X2β2+Zγ+ε,

Zε1nx1(k)εp01nx2(k)εp0kX21nx1(k)z(l)p0(k,l)

X2X1X1ZX2

1nx1(k)QX2z(l)p0
(k,l)QX2X2QX2[InX2(X2X2)1X2]β1

β^1=(X1QX2X1)1X1QX2y=β1+(X1QX2X1)1X1QX2X2p0β2+(X1QX2X1)1X1QX2Zp0γ+(X1QX2X1)1X1QX2εp0
X1X2
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.