A seguir, é apresentada uma pergunta sobre as muitas visualizações oferecidas como 'prova por imagem' da existência do paradoxo de Simpson e, possivelmente, uma pergunta sobre terminologia.
O Paradoxo de Simpson é um fenômeno bastante simples para descrever e fornecer exemplos numéricos (a razão pela qual isso pode acontecer é profunda e interessante). O paradoxo é que existem tabelas de contingência 2x2x2 (Agresti, análise de dados categóricos) em que a associação marginal tem uma direção diferente de cada associação condicional.
Ou seja, a comparação de proporções em duas subpopulações pode ir em uma direção, mas a comparação na população combinada vai na outra direção. Em símbolos:
Existem tal que a + b
mas e
Isso é representado com precisão na seguinte visualização (da Wikipedia ):
Uma fração é simplesmente a inclinação dos vetores correspondentes, e é fácil ver no exemplo que os vetores B mais curtos têm uma inclinação maior que os vetores L correspondentes, mas o vetor B combinado tem uma inclinação menor que o vetor L combinado.
Existe uma visualização muito comum em várias formas, uma em particular na frente da referência da Wikipedia na de Simpson:
Este é um ótimo exemplo de confusão, como uma variável oculta (que separa duas subpopulações) pode mostrar um padrão diferente.
No entanto, matematicamente, essa imagem não corresponde de modo algum a uma exibição das tabelas de contingência que estão na base do fenômeno conhecido como paradoxo de Simpson . Primeiro, as linhas de regressão são sobre dados do conjunto de pontos com valor real, não contam dados de uma tabela de contingência.
Além disso, pode-se criar conjuntos de dados com relação arbitrária de declives nas linhas de regressão, mas em tabelas de contingência, há uma restrição de quão diferentes os declives podem ser. Ou seja, a linha de regressão de uma população pode ser ortogonal a todas as regressões das subpopulações especificadas. Porém, no Paradoxo de Simpson, as proporções das subpopulações, embora não sejam uma inclinação de regressão, não podem se afastar muito da população amalgamada, mesmo que na outra direção (novamente, veja a imagem de comparação de proporções da Wikipedia).
Para mim, isso é suficiente para se surpreender toda vez que vejo a última imagem como uma visualização do paradoxo de Simpson. Mas como vejo os exemplos (o que chamo de errado) em todos os lugares, estou curioso para saber:
- Estou perdendo uma transformação sutil dos exemplos originais de Simpson / Yule de tabelas de contingência em valores reais que justificam a visualização da linha de regressão?
- Certamente o de Simpson é um exemplo particular de erro confuso. O termo 'Paradoxo de Simpson' agora se equipara a erro confuso, de modo que, independentemente da matemática, qualquer mudança de direção por meio de uma variável oculta pode ser chamada de Paradoxo de Simpson?
Adendo: Aqui está um exemplo de generalização para uma tabela 2xmxn (ou 2 por m por contínuo):
Se amalgamado sobre o tipo de chute, parece que um jogador faz mais chutes quando os defensores estão mais próximos. Agrupados por tipo de chute (distância da cesta de verdade), a situação mais intuitivamente esperada ocorre, mais chutes são feitos quanto mais afastados os zagueiros.
Essa imagem é o que considero uma generalização de Simpson para uma situação mais contínua (distância dos defensores). Mas ainda não vejo como o exemplo da linha de regressão é um exemplo do de Simpson.