Interpretando termos de interação em regressão logit com variáveis categóricas

25

Tenho dados de um experimento de pesquisa no qual os entrevistados foram aleatoriamente designados para um dos quatro grupos:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66

Enquanto os três grupos de tratamento variam ligeiramente no estímulo aplicado, a principal distinção com a qual me preocupo é entre os grupos controle e tratamento. Então eu defini uma variável dummy Control:

> summary(df$Control)
     TRUE FALSE 
       59   191

Na pesquisa, os entrevistados foram solicitados (entre outras coisas) a escolher qual das duas coisas preferiam:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5

Depois, depois de receber algum estímulo, conforme determinado pelo grupo de tratamento (e nenhum, se estivesse no grupo de controle), os entrevistados foram solicitados a escolher entre as mesmas duas coisas:

> summary(df$Choice)
  A    B 
149  101

Quero saber se o fato de estar em um dos três grupos de tratamento afetou a escolha que os entrevistados fizeram nesta última pergunta. Minha hipótese é que os entrevistados que receberam um tratamento são mais propensos a escolher Ade B.

Dado que estou trabalhando com dados categóricos, decidi usar uma regressão de logit (fique à vontade para entrar em contato se achar incorreto). Como os entrevistados foram designados aleatoriamente, tenho a impressão de que não preciso necessariamente controlar outras variáveis (por exemplo, dados demográficos), por isso deixei de fora essas perguntas. Meu primeiro modelo foi simplesmente o seguinte:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Tenho a impressão de que a interceptação sendo estatisticamente significativa não é algo que detenha significado interpretável. Pensei que talvez devesse incluir um termo de interação da seguinte maneira:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Agora, o status dos entrevistados como em um grupo de tratamento tem o efeito esperado. Esse foi um conjunto válido de etapas? Como posso interpretar o termo de interação ControlFALSE:PreferA? Os outros coeficientes ainda têm chances de log?

— Pigmalião
fonte

Minha resposta aqui é relevante: stats.stackexchange.com/questions/246873/…

— kjetil b halvorsen

31

Suponho que PreferA = 1 quando um preferiu A e 0 caso contrário e que ControlFALSE = 1 quando tratado e 0 quando controle.

As chances de se preferir A quando uma pessoa não fez isso anteriormente e não recebeu tratamento (ControlFALSE = 0 e PreferA = 0) são , ou seja, existem 23 pessoas que preferem A para cada pessoa isso prefere B. Então A é muito popular. $\exp(3.135)= 23$

O efeito do tratamento refere-se a uma pessoa que não preferia A anteriormente (PreferA = 0). Nesse caso, as probabilidades da linha de base diminuem em um fator ou quando ela é submetida ao tratamento. Portanto, as chances de escolher A para aqueles que foram tratados e não preferiram A anteriormente são ; portanto, existe 2,3 pessoas que preferem A para cada pessoa que prefere B. Portanto, nesse grupo A ainda é mais popular que B, mas menos que no grupo não tratado / basal. $\exp(-2.309) = .099$ $(1-.099) \times 100\%=-90.1\%$ $.099*23=2.3$

O efeito de preferir A refere-se anteriormente a uma pessoa que é um controle (ControlFALSE = 0). Nesse caso, as probabilidades da linha de base diminuem em um fator ou quando alguém A anteriormente. (Portanto, aqueles que consultaram A anteriormente têm muito menos probabilidade de fazê-lo agora. Isso faz sentido?) $.006$ $-99.4\%$

O efeito de interação compara o efeito do tratamento para as pessoas que preferiram A anteriormente e as que não o fizeram. Se uma pessoa preferiu A anteriormente (PreferA = 1), a razão de chances do tratamento aumenta em um fator . Portanto, a razão de chances de tratamento para aqueles que preferiram A anteriormente é de . Alternativamente, essa razão de chances de tratamento para aqueles que preferiram A anteriormente pode ser calculada como . $\exp(2.850) = 17.3$ $17.3 \times .099 = 1.71$ $\exp(2.850 - 2.309)$

Portanto, a constante exponenciada fornece as probabilidades da linha de base , os coeficientes exponenciados dos efeitos principais fornecem as razões de chances quando a outra variável é igual a 0, e o coeficiente exponenciado dos termos de interação informa a proporção pela qual a razão de chances muda .

— Maarten Buis
fonte

Obrigado Maarten, isso é muito útil, pois é sua resposta para minha outra pergunta relacionada. Gostaria apenas de um pouco de esclarecimento sobre um ponto, no entanto. Como aludi na minha outra pergunta, estou preocupado com a validade estatística do que fiz aqui, porque o ControlFALSEvalor de p é alto no primeiro modelo e, em seguida, o valor bastante baixo no segundo modelo. Aplicando sua resposta à minha outra pergunta nesse caso específico, você disse que isso poderia acontecer se Controltivesse um efeito negativo em um grupo Prefere um efeito positivo no outro.

— precisa

(ficou sem espaço) Essa interpretação faz sentido aqui? Não sei exatamente como aplicá-lo diretamente.

— precisa

O efeito do ControlFALSEprimeiro modelo é o efeito do tratamento para os que preferiram A anteriormente e aqueles que não o fizeram, enquanto o efeito no segundo modelo é apenas o efeito do tratamento para aqueles que não preferiram A anteriormente. Se isso é bom ou não, não é uma questão estatística, mas se isso faz ou não sentido substancial.

— Maarten Buis

@MaartenBuis Ótima explicação. Como você faria os cálculos equivalentes para os intervalos de confiança das estimativas? Para facilitar a interpretação, eu geralmente estratificados os modelos logísticos (por exemplo, de preferência antes neste exemplo) e usar o termo de interação como um "teste estatístico para a diferença significativa na Ou isso é aceitável.?

— bobmcpop

2

Também achei este artigo útil para interpretar a interação em regressão logística:

Chen, JJ (2003). Comunicação de informações complexas: a interpretação da interação estatística na análise de regressão logística múltipla . American journal of public public , 93 (9), 1376-1377.

— deepseas
fonte

4

Forneci uma referência completa (título, autor, data, periódico etc.), o que significa que a contribuição ainda será útil se o endereço do link mudar. Mas você poderia expandi-lo para resumir o conteúdo? Caso contrário, isso é realmente mais um comentário do que uma resposta - preferimos que nossas respostas sejam independentes, portanto, elas são resistentes ao "link-apodrecer". Como alternativa, podemos converter isso em um comentário para você.

— Silverfish

Obrigado. Eu estava ligando o NCBI, então achei que seria bom. Eu concordo com as mudanças. Obrigado!

— 25416 deepseas

0

Minha própria preferência, ao tentar interpretar interações na regressão logística, é examinar as probabilidades previstas para cada combinação de variáveis categóricas. No seu caso, isso seria apenas 4 probabilidades:

Prefira A, controle verdadeiro
Prefira A, controle false
Prefira B, controle verdadeiro
Prefira B, controle falso

Quando tenho variáveis contínuas, geralmente olho para o valor previsto no mediano, 1º e 3º quartis.

Embora isso não atinja diretamente a interpretação de cada coeficiente, acho que muitas vezes permite que eu (e meus clientes) vejamos o que está acontecendo de maneira clara.

— Peter Flom - Restabelece Monica
fonte

Interpretando termos de interação em regressão logit com variáveis ​​categóricas

Interpretando termos de interação em regressão logit com variáveis categóricas