Andrew Gelman, em uma de suas postagens recentes, diz:
Não creio que contrafactuais ou resultados potenciais sejam necessários para o paradoxo de Simpson. Digo isso porque é possível configurar o paradoxo de Simpson com variáveis que não podem ser manipuladas ou para as quais manipulações não são diretamente de interesse.
O paradoxo de Simpson faz parte de uma questão mais geral de que os coeficientes de regressão mudam se você adicionar mais preditores, o inverso do sinal não é realmente necessário.
Aqui está um exemplo que eu uso no meu ensino que ilustra os dois pontos:
Eu posso executar uma regressão prevendo renda de sexo e altura. Acho que o coeficiente de sexo é de US $ 10.000 (ou seja, comparando um homem e uma mulher da mesma altura, em média, o homem ganha US $ 10.000 a mais) e o coeficiente de altura é de US $ 500 (ou seja, comparando dois homens ou duas mulheres de diferentes alturas, em média, a pessoa mais alta ganha US $ 500 a mais por polegada de altura).
Como posso interpretar esses coefs? Eu sinto que o coeficiente de altura é fácil de interpretar (é fácil imaginar comparar duas pessoas do mesmo sexo com diferentes alturas); de fato, de alguma forma, seria "errado" regredir na altura sem controlar o sexo, tanto quanto a matéria-prima a diferença entre pessoas baixas e altas pode ser "explicada" por haver diferenças entre homens e mulheres. Mas o coeficiente de sexo no modelo acima parece muito difícil de interpretar: por que comparar um homem e uma mulher com 66 polegadas de altura, por exemplo? Seria uma comparação entre um homem baixo e uma mulher alta. Todo esse raciocínio parece vagamente causal, mas não acho que faça sentido pensar nisso usando possíveis resultados.
Pensei sobre isso (e até comentei no post) e acho que há algo que implora para ser entendido com maior clareza aqui.
Até a parte sobre interpretação de gênero, está tudo bem. Mas não vejo qual é o problema por trás da comparação de um homem baixo e uma mulher alta. Aqui está o meu argumento: de fato, faz ainda mais sentido (dada a suposição de que os homens são mais altos, em média). Você não pode comparar um "homem baixo" e uma mulher "baixa" pelo mesmo motivo, porque a diferença de renda é explicada em parte pela diferença de altura. O mesmo vale para homens altos e mulheres altas e, mais ainda, para mulheres baixas e homens altos (o que está mais fora de questão, por assim dizer). Então, basicamente, o efeito da altura é eliminado apenas no caso de homens baixos e mulheres altas serem comparados (e isso ajuda na interpretação do coeficiente de gênero). Não soa um sino em conceitos subjacentes semelhantes por trás dos populares modelos correspondentes?
A idéia por trás do paradoxo de Simpson é que o efeito da população possa ser diferente do (s) efeito (s) do subgrupo. Em certo sentido, isso está relacionado ao seu ponto 2 e ao fato de ele reconhecer que a altura não deve ser controlada sozinha (o que dizemos omitiu o viés variável). Mas não pude relacionar isso com a controvérsia sobre o coeficiente de gênero.
Talvez você consiga expressá-lo mais claramente? Ou comentar sobre meu entendimento?