Aqui está uma abordagem geral para entender o Paradoxo de Simpson algebricamente para dados de contagem.
Suponha que tenhamos dados de sobrevivência para uma exposição e criemos uma tabela de contingência 2x2. Para simplificar, teremos as mesmas contagens em cada célula. Poderíamos relaxar isso, mas isso tornaria a álgebra bastante confusa.
ExpostoNão expostoMorreuXXSobreviveuXXÍndice de mortalidade0,50,5
Nesse caso, a taxa de mortalidade é a mesma nos grupos Exposto e Não Exposto.
Agora, se dividirmos os dados, digamos em um grupo para mulheres e outro grupo para homens, obteremos 2 tabelas, com as seguintes contagens:
Homens:
ExpostoNão expostoMorreuXumaXcSobreviveuXbXdÍndice de mortalidadeumaa + bcc + d
e para mulheres:
ExpostoNão expostoMorreuX( a - 1 )X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
Onde a , b , c , d∈ [ 0 , 1 ] são as proporções de cada célula na tabela de dados agregados que são do sexo masculino.
O Paradoxo de Simpson ocorrerá quando a taxa de mortalidade para homens expostos for maior que a taxa de mortalidade para homens não expostos E a taxa de mortalidade para mulheres expostas for maior que a taxa de mortalidade para mulheres não expostas. Como alternativa, também ocorrerá quando a taxa de mortalidade para homens expostos for menor que a taxa de mortalidade para homens não expostos E a taxa de mortalidade para mulheres expostas for menor que a taxa de mortalidade para mulheres não expostas . Ou seja, quando
( uma + b< cc + d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
Como um exemplo concreto, deixe X=100 e a=0.5,b=0.8,c=0.9 . Então teremos o paradoxo de Simpson quando:
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
( - 9 <d< 1,44 ) e ( 0,96 <d< 1.1 )
A partir do qual concluímos que d deve estar ( 0,96 , 1 ]
O segundo conjunto de desigualdades fornece:
( 0,50,8 + 0,9> 0,90,9 + d) e ( 0,5 - 10,5 + 0,8 - 2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
que não tem solução para d∈[0,1]
Assim, para os três valores que escolhemos para a,b, e c , para invocar o paradoxo de Simpson, d deve ser maior do que 0,96. No caso em que o valor era 0.99 , obteríamos uma taxa de mortalidade para homens de
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
e para mulheres:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
( 0,9 - 1 )/(0.9+0.99−2)=91% in the unexposed group
Portanto, os homens têm uma taxa de mortalidade mais alta no grupo não exposto do que no grupo exposto, e as mulheres também têm uma taxa de mortalidade mais alta no grupo não exposto do que no grupo exposto, mas as taxas de mortalidade nos dados agregados são as mesmas para os expostos e não expostos. .