O que podemos dizer sobre modelos de dados observacionais na ausência de instrumentos?

10

No passado, fiz várias perguntas a mim relacionadas a artigos publicados em várias áreas em que regressões (e modelos relacionados, como modelos de painel ou GLMs) são usadas em dados observacionais (dados não produzidos por experimento controlado) , em muitos casos - mas nem sempre - dados observados ao longo do tempo), mas onde nenhuma tentativa de introduzir variáveis instrumentais é feita.

Fiz várias críticas em resposta (como descrever problemas com viés em que variáveis importantes podem estar faltando), mas como outras pessoas aqui sem dúvida terão muito mais conhecimento do que eu sobre esse tópico, imaginei que perguntaria:

Quais são as principais questões / consequências de tentar chegar a conclusões sobre relacionamentos (particularmente, mas não limitado a conclusões causais) em tais situações?
Alguma coisa útil pode ser feita com estudos que se encaixam nesses modelos na ausência de instrumentos?
Quais são algumas boas referências (livros ou artigos) sobre os problemas dessa modelagem (de preferência com clara motivação não técnica das consequências, uma vez que geralmente as pessoas que solicitam têm uma variedade de antecedentes, algumas sem muita estatística) às quais as pessoas podem se referir ao criticar um papel? A discussão de precauções / problemas com instrumentos também seria útil.

(Referências básicas sobre variáveis instrumentais estão aqui , embora, se você tiver alguma a acrescentar, isso também seria útil.)

Ponteiros para bons exemplos práticos de localização e uso de instrumentos seriam um bônus, mas não são centrais para esta questão.

[Provavelmente apontarei outras pessoas para boas respostas aqui, pois essas perguntas me chegam. Posso adicionar um ou dois exemplos à medida que os obtenho.]

— Glen_b -Reinstate Monica
fonte

8

Portanto, a grande maioria do meu campo (embora não seja a parte em que mais trabalho) se preocupa apenas com isso - a adaptação de modelos do tipo GLM a dados observacionais. Na maioria das vezes, as variáveis instrumentais são uma raridade, devido à falta de familiaridade com a técnica ou, o que é mais importante, à falta de um bom instrumento. Para resolver suas perguntas em ordem:

A questão principal é, é claro, algum tipo de confusão residual por uma variável não observada que está associada à exposição e ao resultado do interesse. A versão em linguagem simples é que sua resposta pode estar errada, mas você não sabe necessariamente como ou por quê. As decisões tomadas sobre essas informações (como usar ou não um tratamento específico, se X é perigoso no ambiente etc.) são decisões tomadas usando as informações erradas.
Eu diria que a resposta é sim porque, na maior parte, esses estudos estão tentando chegar a algo em que não há necessariamente um bom instrumento ou em que a randomização é impossível. Então, quando se trata disso, a alternativa é "Apenas adivinhe". Esses modelos são, se nada mais, uma formalização de nossos pensamentos e uma tentativa sólida de chegar perto da resposta, e são mais fáceis de lidar.

Por exemplo, você pode perguntar o quão sério o viés teria que ser para alterar qualitativamente sua resposta (ou seja, "Sim, X é ruim para você ...") e avaliar se você acha razoável ou não que haja um fator desconhecido. dessa força à espreita fora dos seus dados.

Por exemplo, o achado de que a infecção pelo HPV está extremamente fortemente associada ao câncer do colo do útero é um achado importante, e a força de um fator não medido que influenciaria a tendência de que todo o caminho para o nulo tivesse que ser surpreendentemente forte.

Além disso, deve-se notar que um instrumento não corrige isso - eles só funcionam ausentes em algumas associações não medidas e até mesmo estudos randomizados sofrem de problemas (abandono diferencial entre tratamento e controle, qualquer mudança de comportamento após a randomização, generalização para o real). população-alvo) que também são encobertas um pouco.

Rothman, Groenlândia e Lash escreveram a última edição da Modern Epidemiology, que é essencialmente um livro dedicado a tentar fazer isso da melhor maneira possível.

— Fomite
fonte

8

Em contraste com a visão do lado do epidemiologista mostrada por Fomite, as variáveis instrumentais são um kit de ferramentas essencial em economia, que é ensinado bastante cedo. A razão para isso é que existe um grande foco na tentativa de responder a questões causais na pesquisa econômica hoje em dia, que vai até um ponto em que meras correlações são consideradas desinteressantes. A principal limitação é que a economia é um campo em que é inerentemente difícil fazer experimentos aleatórios. Se eu quiser saber qual é o efeito de uma morte precoce dos pais nos resultados educacionais de longo prazo de uma criança, a maioria das pessoas se oporia a fazê-lo através de uma trilha de controle aleatória - e com razão. Este folheto de um curso do MIT descreve na página 3-5 quais outros problemas existem com as experiências.

Para abordar cada ponto por vez:

$x\%$ ), para estimar uma equação da demanda e esquecer ou ignorar completamente o fato de que a demanda e a oferta são determinadas simultaneamente e que uma afeta a outra. Portanto, as consequências dependem muito mais da conscientização do pesquisador / analista de dados em relação às limitações dos dados do que aos dados em si, mas as consequências resultantes podem variar de algo trivial a uma extensão em que afetam negativamente a vida das pessoas.
$D_i$ você pode calcular o efeito desse tratamento, fazer o mesmo com os não observáveis e perguntar qual deve ser o tamanho da mudança nos não observáveis para explicar o efeito do tratamento observado. Se a mudança não observada precisar ser muito grande, podemos ser um pouco mais confiantes em relação às nossas descobertas. A referência para isso é Altonji, Elder e Taber (2000) .
Provavelmente, qualquer economista aplicado recomendaria Angrist e Pischke (2009) "Mostly Harmless Econometrics". Embora este livro seja destinado principalmente a estudantes e pesquisadores de pós-graduação, é possível pular as partes matemáticas e obter apenas a intuição que também é bem explicada. Eles primeiro introduzem a idéia de um cenário experimental, depois tendem ao OLS e suas limitações em relação à endogeneidade de variáveis omitidas, simultaneidade, seleção etc. e depois discutem extensivamente variáveis instrumentais com uma boa parcela de exemplos da literatura aplicada. Eles também discutem problemas com variáveis instrumentais, como instrumentos fracos ou usando muitos deles. Angrist e Krueger (2001) também fornecem uma visão geral não técnica de variáveis instrumentais e armadilhas potenciais, além de uma tabela que resume vários estudos e seus instrumentos.

Provavelmente tudo isso foi muito mais longo do que deveria ser uma resposta típica, mas a pergunta é muito ampla. Eu só gostaria de enfatizar que as variáveis instrumentais (que geralmente são difíceis de encontrar) não são a única bala no nosso bolso. Existem outros métodos não experimentais para descobrir efeitos causais de dados observacionais, como diferença nas diferenças, desenhos de descontinuidade de regressão, correspondência ou regressão de efeitos fixos (se nossos fatores de confusão são invariantes no tempo). Tudo isso é discutido em Angrist e Pischke (2009) e no folheto vinculado no início.

— Andy
fonte