categorizar uma variável a transforma de insignificante para significativa


17

Eu tenho uma variável numérica que resulta não significativa em um modelo de regressão logística multivariada. No entanto, quando eu o categorizo ​​em grupos, de repente se torna significativo. Isso é muito contra-intuitivo para mim: ao categorizar uma variável, fornecemos algumas informações.

Como isso pode ser?

Respostas:


25

Uma explicação possível seria não linearidades na relação entre seu resultado e o preditor.

Aqui está um pequeno exemplo. Usamos um preditor uniforme em . O resultado, no entanto, não depende linearmente do preditor, mas do quadrado do preditor: TRUE é mais provável para e , mas menos provável para . Nesse caso, um modelo linear será insignificante, mas cortar o preditor em intervalos o torna significativo.[1,1]x1x1x0

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

No entanto, isso não significa que discretizar o preditor seja a melhor abordagem. (Quase nunca é.) Muito melhor modelar a não linearidade usando ou similar.


Existem alguns exemplos em que a discretização pode ser sensata? Por exemplo, se você tiver um limite específico (por exemplo, 18 anos) no qual ocorre uma troca binária nos resultados. A idade numérica na faixa de 18 anos ou mais pode não ser significativa, mas a idade binária> 18 pode ser significativa?
ajrwhite 19/03

3
@ajrwhite: depende do campo. Qualquer lugar em que os limiares sejam codificados na discretização da lei pode fazer sentido. Por exemplo, se você modela o comportamento da votação, faz sentido verificar se alguém é realmente elegível para votar aos 18 anos. Da mesma forma, na Alemanha, o imposto sobre seu veículo depende do deslocamento do motor e salta em 1700, 1800, 1900, ... ccm , praticamente todos os carros têm deslocamentos de 1699, 1799, ... ccm (tipo de auto-discriminação). Nas ciências naturais, como biologia, medicina, psicologia etc., luto para encontrar um exemplo em que a discretização faça sentido.
S. Kolassa - Restabelece Monica

7

Uma maneira possível é se o relacionamento for claramente não-linear. Não é possível dizer (dada a falta de detalhes) se isso realmente explica o que está acontecendo.

Você pode verificar por si mesmo. Primeiro, você pode fazer um gráfico de variável adicionado para a variável em si e também pode plotar os efeitos ajustados na versão fatorial do modelo. Se a explicação estiver correta, ambos devem ver um padrão distintamente não linear.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.