Eu recomendo verificar a Econometria Principalmente Inofensiva - eles têm uma boa explicação disso em um nível intuitivo.
O problema que você está tentando resolver é o viés de seleção. Se uma variável estiver correlacionada com os resultados potenciais e com a probabilidade de receber tratamento, se você achar que o resultado esperado do tratamento é melhor que o resultado esperado do não tratado, isso pode ser um achado falso porque os tratados tendem a ter mais alto e, portanto, a . O problema surge porque torna correlacionado com o tratamento.y 0 i , y 1 i x y 0 i , y 1 i xxiy0i,y1ixy0i,y1ixy0i,y1i
Esse problema pode ser resolvido através do controle de . Se pensarmos que a relação entre os resultados potenciais e as variáveis é linear, basta fazer isso incluindo em uma regressão com uma variável dummy para tratamento, e a variável dummy interagiu com . Obviamente, a regressão linear é flexível, pois também podemos incluir funções de . Mas e se não quisermos impor uma forma funcional? Então precisamos usar uma abordagem não paramétrica: matching.xxxxx
Na comparação, comparamos observações tratadas e não tratadas com semelhante . Afastamo-nos disso com uma estimativa do efeito do tratamento para todos os valores (ou pequenos intervalos de valores ou "baldes") para os quais temos observações tratadas e não tratadas. Se não tivermos muitos desses valores ou baldes , em particular se for um vetor de alta dimensão, por isso é difícil encontrar observações próximas umas das outras, é útil projetar esse espaço em uma dimensão.xxxx
É isso que a correspondência de pontuação de propensão faz. Se não estão correlacionados com o tratamento dado , verifica-se que eles também não estão correlacionados com o tratamento dado onde é a probabilidade de tratamento dado , ou seja, o escore de propensão de .y0i,y1ixip(xi)p(x)xx
Aqui está sua intuição: se encontrarmos uma subamostra de observações com uma pontuação de propensão muito semelhante , para essa subamostra, os grupos tratado e não tratado não serão correlacionados com . Cada observação tem a mesma probabilidade de ser tratada ou não tratada; isso implica que qualquer observação tratada é igualmente provável que venha de qualquer um dos valores na subamostra. Como é o que determina os resultados em potencial em nosso modelo, isso implica que, para essa subamostra, os resultados em potencialp(x)xxxy0i,y1inão estão correlacionados com o tratamento. Essa condição garante que a diferença média de resultado da subamostra entre o tratado e o não tratado seja uma estimativa consistente do efeito médio do tratamento nessa subamostra, ou seja,
E[yi|Treated,p(x)]−E[yi|Untreated,p(x)]
é uma estimativa consistente do efeito local médio do tratamento.
Leitura adicional:
Devemos realmente usar a correspondência de propensão na prática?
Pergunta relacionada comparando correspondência e regressão