Por que a correspondência de pontuação de propensão funciona para inferência causal?


13

A correspondência do escore de propensão é usada para fazer inferências causais em estudos observacionais (consulte o artigo de Rosenbaum / Rubin ). Qual é a intuição simples por trás de por que funciona?

Em outras palavras, por que, se garantirmos que a probabilidade de participar do tratamento seja igual para os dois grupos, os efeitos confusos desaparecem e podemos usar o resultado para tirar conclusões causais sobre o tratamento?


8
A minha provavelmente é uma opinião impopular, mas acho que dizer que o PSM permite que você faça inferências causais está aumentando um pouco. Sim, é um método de correspondência mais preciso do que apenas a correspondência "bruta" em um punhado de variáveis, mas no final do dia, você ainda está correspondendo apenas nas variáveis ​​que são observáveis ​​para você. Você ainda pode ter o tratamento endógeno, mas você faz a suposição de que, depois de correspondência, o tratamento é exógena. Mas, novamente, eu sou um ninguém em comparação com os gostos de Rubin :)
Marquês de Carabas

5
Há quem discorde de Rosenbaum e Rubin. Gary King argumentou com bastante eficácia que os resultados da correspondência usando o PSM são inferiores aos resultados obtidos da correspondência com base na distância de Mahalanobis. Veja o artigo dele aqui ... gking.harvard.edu/files/gking/files/psnot.pdf?m=1456683191 Além disso, este webinar fornece evidências ainda mais convincentes ... methods-colloquium.com/…
Mike Hunter

4
Em teoria, você PODE fazer inferência causal aplicando o modelo causal de Rubin se todas as suposições forem atendidas. Mas é claro que o diabo está sempre nos detalhes da suposição e, para mim, a suposição de fatores de confusão não observados costuma ser difícil. De fato, é impossível provar. Mas você pode pelo menos executar análises de sensibilidade para determinar o que seria necessário para que suas conclusões mudassem se você tivesse fatores de confusão não observados.
StatsStudent

5
Bom ponto @DJohnson. Também existem grupos como Judea Pearl, Ian Shrier e Arvid Sjolander, que criticam o Quadro de Resultados Potenciais de Rubin para obter inferência causal devido à possibilidade de introduzir "preconceito de M" por meio do que chamam de "colisor". São leituras interessantes e devem complementar as leituras de Rubin.
StatsStudent

Respostas:


12

Vou tentar fornecer uma compreensão intuitiva com ênfase mínima na matemática.

O principal problema com os dados observacionais e as análises resultantes disso é confuso. A confusão ocorre quando uma variável afeta não apenas o tratamento atribuído, mas também os resultados. Quando um experimento randomizado é realizado, os indivíduos são randomizados para tratamentos, de modo que, em média, os indivíduos designados para cada tratamento sejam semelhantes em relação às covariáveis ​​(idade, raça, sexo etc.). Como resultado dessa randomização, é improvável (especialmente em amostras grandes) que as diferenças no resultado sejam devidas a quaisquer covariáveis, mas devido ao tratamento aplicado, uma vez que, em média, as covariáveis ​​nos grupos de tratamento são semelhantes.

Por outro lado, com dados observacionais, não há mecanismo aleatório que designe indivíduos para tratamentos. Tomemos, por exemplo, um estudo para examinar as taxas de sobrevivência de pacientes após uma nova cirurgia cardíaca em comparação com um procedimento cirúrgico padrão. Normalmente, não se pode randomizar pacientes para cada procedimento por razões éticas. Como resultado, pacientes e médicos se auto-selecionam em um dos tratamentos, geralmente devido a vários motivos relacionados às suas covariáveis. Por exemplo, o novo procedimento pode ser um pouco mais arriscado se você for mais velho e, como resultado, os médicos poderão recomendar o novo tratamento com mais frequência para pacientes mais jovens. Se isso acontecer e você observar as taxas de sobrevivência, o novo tratamento poderá parecer mais eficaz, mas isso seria enganoso, pois pacientes mais jovens foram designados para esse tratamento e pacientes mais jovens tendem a viver mais, tudo o resto é igual. É aqui que as pontuações de propensão são úteis.

Os escores de propensão ajudam no problema fundamental da inferência causal - que você pode ter confusão devido à não randomização dos sujeitos para tratamentos e isso pode ser a causa dos "efeitos" que você está vendo, em vez da intervenção ou tratamento sozinho. Se você fosse capaz de modificar de alguma forma sua análise para que as covariáveis ​​(por exemplo, idade, sexo, sexo, estado de saúde) estivessem "equilibradas" entre os grupos de tratamento, você teria fortes evidências de que a diferença nos resultados se deve à intervenção / tratamento ao invés dessas covariáveis. Os escores de propensão determinam a probabilidade de cada indivíduo ser atribuído ao tratamento que recebeu, dado o conjunto de covarites observados. Se você combinar essas probabilidades (escores de propensão),

Você pode perguntar por que não corresponder exatamente às covariáveis ​​(por exemplo, certifique-se de combinar homens de 40 anos em boa saúde no tratamento 1 com homens de 40 anos em boa saúde no tratamento 2)? Isso funciona bem para amostras grandes e algumas covariáveis, mas torna-se quase impossível quando o tamanho da amostra é pequeno e o número de covariáveis ​​é de tamanho moderado (veja a maldição da dimensionalidade em Validação cruzada para saber por que esse é o caso). .

Agora, tudo isso dito, o índice de propensão no calcanhar de Aquiles é a suposição de que não há fatores de confusão não observados. Esta suposição afirma que você não deixou de incluir covariáveis ​​em seu ajuste que são potenciais fatores de confusão. Intuitivamente, a razão por trás disso é que, se você não incluiu um fator de confusão ao criar sua pontuação de propensão, como pode se ajustar a ela? Há também suposições adicionais, como a suposição de valor de tratamento unitário estável, que afirma que o tratamento atribuído a um sujeito não afeta o resultado potencial dos outros sujeitos.


7

Em sentido estrito, o ajuste do escore de propensão não tem mais a ver com inferência causal do que a modelagem de regressão. A única diferença real com os escores de propensão é que eles facilitam o ajuste para fatores de confusão potenciais mais observados do que o tamanho da amostra pode permitir a incorporação de modelos de regressão. O ajuste do escore de propensão (melhor realizado através do ajuste covariável na maioria dos casos, usando um spline no logit PS) pode ser pensado como uma técnica de redução de dados em que a redução ocorre ao longo de um eixo importante - confusão. No entanto, ele não lida com a heterogeneidade do resultado (viés de suscetibilidade), portanto, você também precisa ajustar as covariáveis ​​importantes, mesmo ao usar propensões (consulte também questões relacionadas à não recolhibilidade de probabilidades e taxas de risco).

A correspondência de propensão pode excluir muitas observações e, portanto, ser terrivelmente ineficiente. Eu vejo qualquer método que exclua observações relevantes como problemático. O problema real da correspondência é que ela exclui observações facilmente correspondidas devido a alguma necessidade percebida de correspondência 1: 1, e a maioria dos algoritmos de correspondência depende da ordem da observação.

Observe que é muito fácil ao fazer o ajuste de regressão padrão para confusão verificar e excluir regiões não sobrepostas. Os usuários do escore de propensão são ensinados a fazer isso e a única razão pela qual os modeladores de regressão não o fazem é que eles não aprendem.

A análise do escore de propensão oculta qualquer interação com a exposição, e a correspondência do escore de propensão oculta, além de uma possível relação entre o PS e o efeito do tratamento.

A análise de sensibilidade (para fatores de confusão não medidos) foi elaborada para o PS, mas é ainda mais fácil com a modelagem de regressão padrão.

Se você usa métodos de regressão flexíveis para estimar o PS (por exemplo, não assuma que variáveis ​​contínuas ajam linearmente), você nem precisa verificar o equilíbrio - deve haver equilíbrio ou o modelo de regressão do PS não foi especificado corretamente no início . Você só precisa verificar se não há sobreposição. Isso pressupõe que não há interações importantes que foram omitidas do modelo de propensão. A correspondência faz a mesma suposição.


3

Eu recomendo verificar a Econometria Principalmente Inofensiva - eles têm uma boa explicação disso em um nível intuitivo.

O problema que você está tentando resolver é o viés de seleção. Se uma variável estiver correlacionada com os resultados potenciais e com a probabilidade de receber tratamento, se você achar que o resultado esperado do tratamento é melhor que o resultado esperado do não tratado, isso pode ser um achado falso porque os tratados tendem a ter mais alto e, portanto, a . O problema surge porque torna correlacionado com o tratamento.y 0 i , y 1 i x y 0 i , y 1 i xxiy0i,y1ixy0i,y1ixy0i,y1i

Esse problema pode ser resolvido através do controle de . Se pensarmos que a relação entre os resultados potenciais e as variáveis é linear, basta fazer isso incluindo em uma regressão com uma variável dummy para tratamento, e a variável dummy interagiu com . Obviamente, a regressão linear é flexível, pois também podemos incluir funções de . Mas e se não quisermos impor uma forma funcional? Então precisamos usar uma abordagem não paramétrica: matching.xxxxx

Na comparação, comparamos observações tratadas e não tratadas com semelhante . Afastamo-nos disso com uma estimativa do efeito do tratamento para todos os valores (ou pequenos intervalos de valores ou "baldes") para os quais temos observações tratadas e não tratadas. Se não tivermos muitos desses valores ou baldes , em particular se for um vetor de alta dimensão, por isso é difícil encontrar observações próximas umas das outras, é útil projetar esse espaço em uma dimensão.xxxx

É isso que a correspondência de pontuação de propensão faz. Se não estão correlacionados com o tratamento dado , verifica-se que eles também não estão correlacionados com o tratamento dado onde é a probabilidade de tratamento dado , ou seja, o escore de propensão de .y0i,y1ixip(xi)p(x)xx

Aqui está sua intuição: se encontrarmos uma subamostra de observações com uma pontuação de propensão muito semelhante , para essa subamostra, os grupos tratado e não tratado não serão correlacionados com . Cada observação tem a mesma probabilidade de ser tratada ou não tratada; isso implica que qualquer observação tratada é igualmente provável que venha de qualquer um dos valores na subamostra. Como é o que determina os resultados em potencial em nosso modelo, isso implica que, para essa subamostra, os resultados em potencialp(x)xxxy0i,y1inão estão correlacionados com o tratamento. Essa condição garante que a diferença média de resultado da subamostra entre o tratado e o não tratado seja uma estimativa consistente do efeito médio do tratamento nessa subamostra, ou seja,

E[yi|Treated,p(x)]E[yi|Untreated,p(x)]

é uma estimativa consistente do efeito local médio do tratamento.

Leitura adicional:

Devemos realmente usar a correspondência de propensão na prática?

Pergunta relacionada comparando correspondência e regressão


1

Ele "funciona" pela mesma razão que a regressão "funciona" - você está controlando todos os fatores de confusão.

Você pode realizar esse controle analítico por um modelo de regressão totalmente especificado com talvez muitas variáveis ​​de confusão ou um modelo de regressão com apenas uma variável - a pontuação de propensão (que pode ou não ser um modelo igualmente complicado que consiste nos mesmos fatores de confusão). Você pode manter essa regressão versus o escore de propensão ou comparar a resposta em grupos semelhantes, onde a semelhança é definida pelo escore de propensão. Em espírito, você está fazendo a mesma coisa, mas algumas pessoas sentem que o último método destaca melhor a tarefa causal em questão.

Atualizar após feedback

Meu pensamento para explicar a intuição por trás do funcionamento da correspondência de pontuação de propensão foi explicar o Teorema de Pontuação de Propensão , ou seja, algo que pensei que poderia fazer usando regressão. Mas, como o @StatsStudent argumenta, a regressão facilita extrapolar as comparações entre tratamento e controle que nunca ocorrem nos dados. Se isso é parte do motivo pelo qual a correspondência de propensão "funciona", minha resposta foi incompleta. Consultei Contrafactuais e Inferência Causal

Y(0),Y(1)T|XY(0),Y(1)T|p(X),
e leia sobre uma versão da correspondência do vizinho mais próximo, denominada "correspondência do compasso de calibre" (p. 108), em que as pontuações de propensão do tratamento e o caso de controle mais próximo devem estar a uma certa distância máxima, resultando em alguns casos de tratamento sem correspondências. Nesse caso, o método ainda funcionaria ajustando o escore de propensão usando um analógico não paramétrico para regressão, mas também deixa claro o que não pode ser conhecido apenas dos dados (sem um modelo para extrapolar) e permitindo uma redefinição de a quantidade causal, dados os dados disponíveis.

1
Essa resposta está destinada a ser desagradável, porque reduz os métodos de pontuação de propensão comparando-os à regressão, uma palavra suja nos círculos causais. Mas a resposta principal admite que "o índice de propensão no calcanhar de Aquiles é a suposição de que não há confusão de dados". Esse é um calcanhar de Aquiles bastante grande. Digamos que a suposição seja cumprida e eu tenho um conjunto de dados com todos os fatores de confusão do universo. Ajude-me a entender por que a regressão não funcionará para descobrir a verdade causal, mas a correspondência de pontuação de propensão funcionará.
precisa saber é o seguinte

1
A razão pela qual a regressão é frequentemente problemática é porque os resultados da regressão são extrapolados. Com os escores de propensão, assegura-se, durante as verificações de equilíbrio covariável, que haja sobreposição suficiente de confusão entre os grupos de tratamento. Esse não é necessariamente o caso da regressão e pode levar a estimativas imprecisas, pois não há verificações de diagnóstico padrão que indiquem que seu modelo de regressão está extrapolando. É por isso que normalmente executo verificações de balanceamento de pontuação de propensão, mesmo que eu esteja apenas executando um modelo de regressão e não planeje usar elas próprias.
StatsStudent
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.