O que é uma diferença no estimador de diferenças A
diferença nas diferenças (DiD) é uma ferramenta para estimar os efeitos do tratamento comparando as diferenças pré e pós-tratamento no resultado de um grupo de tratamento e controle. Em geral, estamos interessados em estimar o efeito de um tratamento (por exemplo, status sindical, medicação etc.) sobre um resultado (por exemplo, salários, saúde etc.) como em
onde são efeitos fixos individuais (características de indivíduos que não mudam ao longo do tempo), são efeitos fixos no tempo, são covariáveis variáveis no tempo, como a idade dos indivíduos eDiYi
Yit=αi+λt+ρDit+X′itβ+ϵit
αiλtXitϵit é um termo de erro. Indivíduos e tempo são indexados por e , respectivamente. Se houver uma correlação entre os efeitos fixos e , a estimativa dessa regressão via OLS será enviesada, uma vez que os efeitos fixos não são controlados. Esse é o
viés típico da
variável omitida .
itDit
Para ver o efeito de um tratamento, gostaríamos de saber a diferença entre uma pessoa em um mundo em que ela recebeu o tratamento e uma em que ela não recebe. Obviamente, apenas uma delas é observável na prática. Portanto, procuramos pessoas com as mesmas tendências de pré-tratamento no resultado. Suponhamos que temos dois períodos e dois grupos . Então, supondo que as tendências nos grupos de tratamento e controle continuariam da mesma maneira que antes na ausência de tratamento, podemos estimar o efeito do tratamento como
t=1,2s=A,B
ρ=(E[Yist|s=A,t=2]−E[Yist|s=A,t=1])−(E[Yist|s=B,t=2]−E[Yist|s=B,t=1])
Graficamente, isso seria algo parecido com isto:
Você pode simplesmente calcular esses meios manualmente, ou seja, obter o resultado médio do grupo nos dois períodos e fazer a diferença. Em seguida, obtenha o resultado médio do grupo nos dois períodos e faça a diferença. Então faça a diferença nas diferenças e esse é o efeito do tratamento. No entanto, é mais conveniente fazer isso em uma estrutura de regressão, pois isso permite que vocêAB
- controlar covariáveis
- obter erros padrão para o efeito do tratamento para ver se é significativo
Para fazer isso, você pode seguir uma das duas estratégias equivalentes. Gere um manequim do grupo de controle que seja igual a 1 se uma pessoa estiver no grupo e 0, caso contrário, gere um manequim de tempo que seja igual a 1 se e 0, e depois regride
treatiAtimett=2
Yit=β1+β2(treati)+β3(timet)+ρ(treati⋅timet)+ϵit
Ou você simplesmente gera um fictício que é igual a um se uma pessoa estiver no grupo de tratamento E o período de tempo é o período de pós-tratamento e é zero caso contrário. Então você regredirá
Tit
Yit=β1γs+β2λt+ρTit+ϵit
onde é novamente um manequim para o grupo de controle e são manequins de tempo. As duas regressões fornecem os mesmos resultados para dois períodos e dois grupos. A segunda equação é mais geral, embora se estenda facilmente a vários grupos e períodos. Em ambos os casos, é assim que você pode estimar a diferença nas diferenças de um modo que inclua variáveis de controle (eu as deixei de fora das equações acima para não confundi-las, mas você pode simplesmente incluí-las) e obter erros padrão por inferência.γsλt
Por que a diferença no estimador de diferenças é útil?
Como afirmado anteriormente, o DiD é um método para estimar os efeitos do tratamento com dados não experimentais. Essa é a característica mais útil. DiD também é uma versão da estimativa de efeitos fixos. Enquanto o modelo de efeitos fixos assume , DiD faz uma suposição semelhante, mas no nível do grupo, . Portanto, o valor esperado do resultado aqui é a soma de um grupo e um efeito no tempo. Então qual a diferença? Para Você não precisa necessariamente de dados em painel, enquanto suas seções transversais repetidos são extraídos da mesma unidade agregada . Isso torna o DiD aplicável a uma matriz mais ampla de dados do que os modelos de efeitos fixos padrão que requerem dados do painel.E(Y0it|i,t)=αi+λtE(Y0it|s,t)=γs+λts
Podemos confiar na diferença nas diferenças?
A suposição mais importante em DiD é a suposição de tendências paralelas (veja a figura acima). Nunca confie em um estudo que não mostre graficamente essas tendências! Os artigos da década de 1990 podem ter escapado disso, mas hoje em dia nosso entendimento sobre DiD é muito melhor. Se não houver um gráfico convincente que mostre as tendências paralelas nos resultados do pré-tratamento para os grupos de tratamento e controle, seja cauteloso. Se a suposição de tendências paralelas se mantiver e pudermos descartar com credibilidade quaisquer outras alterações variantes no tempo que possam confundir o tratamento, o DiD é um método confiável.
Outra palavra de cautela deve ser aplicada quando se trata do tratamento de erros padrão. Com muitos anos de dados, você precisa ajustar os erros padrão para autocorrelação. No passado, isso foi negligenciado, mas desde Bertrand et al. (2004) "Quanto devemos confiar nas estimativas das diferenças nas diferenças?" sabemos que isso é um problema. No artigo, eles fornecem vários remédios para lidar com a autocorrelação. O mais fácil é agrupar no identificador de painel individual, o que permite a correlação arbitrária dos resíduos entre as séries temporais individuais. Isso corrige a autocorrelação e a heterocedasticidade.
Para referências adicionais, consulte estas notas de aula de Waldinger e Pischke .