Interpretação da regressão logística ordinal

Eu executei essa regressão logística ordinal em R:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Eu recebi este resumo do modelo:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633

Eu posso obter as probabilidades de log do coeficiente mpgassim:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679

E as probabilidades de log dos limites, como:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353

Alguém poderia me dizer se minha interpretação deste modelo está correta:

À medida que mpgaumenta em uma unidade, as chances de passar da categoria 1 carbpara qualquer uma das outras 5 categorias diminui em -0,23. Se as probabilidades do log ultrapassarem o limite de 0,0015, o valor previsto para um carro será da categoria 2 de carb. Se as probabilidades do log ultrapassarem o limite de 0,0121, o valor previsto para um carro será da categoria 3 carbe assim por diante.

— luciano
fonte

Respostas:

Você tem probabilidades perfeitamente confusas e probabilidades de log. As probabilidades de log são os coeficientes; as probabilidades são coeficientes exponenciados. Além disso, a interpretação das probabilidades é inversa . (Eu cresci com econometria pensando nas variáveis dependentes limitadas, e a interpretação das probabilidades da regressão ordinal é ... uhm ... divertida para mim.) Portanto, sua primeira afirmação deve ser: "À medida que mpg aumenta uma unidade, as probabilidades de observar a categoria 1 de carb vs. outras 5 categorias aumentam 21% ".

No que diz respeito à interpretação dos limites, você realmente precisa plotar todas as curvas previstas para poder dizer qual é a previsão modal:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

insira a descrição da imagem aqui

A curva azul para a 3ª categoria nunca subiu e a curva roxa para a 6ª categoria também não. Portanto, se algo que eu diria que, para valores mpgacima de 27, a categoria mais provável é 1; entre 18 e 27, categoria 2; entre 4 e 18, categoria 4; e abaixo de 4, categoria 8. (Gostaria de saber o que você está estudando - caminhões comerciais? A maioria dos carros de passageiros atualmente deve ter mpg> 25). Você pode tentar determinar os pontos de interseção com mais precisão.

Também notei que você tem essas categorias estranhas que vão 1, 2, 3, 4, depois 6 (pulando 5) e depois 8 (pulando 7). Se faltam 5 e 7 por design, tudo bem. Se essas categorias são válidas e carbsimplesmente não se enquadram, isso não é bom.

— StasK
fonte

Observe como eu usei "passar da categoria 1 do carb para qualquer uma das outras 5 categorias". Isso está errado? Estou lutando para entender "À medida que o mpg aumenta em uma unidade, as chances de observar a categoria 1 de carboidratos versus outras 5 categorias aumentam em 21%". Isso implica que se o mpg aumentar em aproximadamente 5 unidades, haverá 100% de chance de observar a categoria 1. Mas se o mpg aumentar em 5 unidades, haverá uma chance maior de observar a categoria 8, e não a categoria 1.

— luciano

Eu adicionei a figura; Eu suspeitava que isso tornaria sua resposta mais fácil de interpretar - espero que você goste. (BTW, a documentação para ? Mtcars diz que os dados são resultados de teste de um 1974 questão da Tendências motor .)

— gung - Reintegrar Monica

Alguém poderia responder à última pergunta de luciano? Acho isso muito interessante.

— Erosennin

mpg

\frac{2}{3}

$\frac23$

\frac{1}{3}

$\frac13$

\frac{4}{5}

$\frac45$

\frac{1}{5}

$\frac15$

Como polrdefine o modelo como logit P(Y <= k | x) = zeta_k - eta, a interpretação do @ StasK não deve ser lida: "À medida que mpg aumenta em uma unidade, as chances de observar a categoria 1 de carb vs. outras 5 categorias aumentam 26% ( exp(-(-0.2335)) = 1.26)".

— moremo

No modelo de logit ordenado, as probabilidades formam a razão entre a probabilidade estar em qualquer categoria abaixo de um limite específico e a probabilidade estar em uma categoria acima do mesmo limite (por exemplo, com três categorias: probabilidade de estar na categoria A ou B vs C, bem como a probabilidade de pertencer à categoria A vs. B ou C).

Isso leva ao modelo, logit P(Y <= k | x) = zeta_k - etaconforme especificado na descrição de polr(). Portanto, as taxas de chances podem ser construídas para diferentes categorias ou para diferentes regressores. O último, o mais comum, compara odds para as mesmas categorias, mas diferentes regressores e iguais

\frac{o d d s (y_{a} \leq k | x_{a})}{o d d s (y_{b} \leq k | x_{b})} = \exp (- (η_{a} - η_{b})) .

$\newcommand{\odds}{{\rm odds}} \frac{\odds(y_a \le k \,|\,x_a)}{\odds(y_b \le k \,|\,x_b)}~=~ \exp(-(\eta_a - \eta_b)).$

O odds ratio para diferentes categorias é definido como

\frac{o d d s (y_{i} \leq k | x_{i})}{o d d s (y_{i} \leq m | x_{i})} = \exp (ζ_{k} - ζ_{m}),

$\frac{\odds(y_i \le k \,|\,x_i)}{\odds(y_i \le m \,|\,x_i)}~=~ \exp(\zeta_k - \zeta_m),$

em que a razão é independente dos regressores. Essa propriedade leva ao modelo de chances proporcionais do nome alternativo .

Neste exemplo simples, mas talvez não muito intuitivo, você pode formular: Para um aumento de uma unidade no regressor mpg, as chances de observar a categoria 1 vs. a observação de qualquer categoria mais alta (ou as chances de observar qualquer categoria abaixo de um certo limite vs. observando qualquer categoria acima do mesmo limite) são multiplicadas por 1,26 ou aumentadas em 26% ( exp(-(-0.233 - 0)) = 1.263). Se você deseja formular uma razão de chances de diferentes categorias, pode dizer, por exemplo, que as probabilidades de pertencer à categoria 1 vs. qualquer categoria acima são comparadas às chances de pertencer à categoria 1 ou 2 e de qualquer categoria acima exp((-6.470) - (-4.415)) = 0.128. Em que a última interpretação não é muito útil nesta configuração específica. Um exemplo de uma razão de chances para diferentes categorias pode ser a chance de ingressar na faculdade em comparação com as chances de ingressar no ensino médio.

$(\zeta_k - \zeta_{k-1})$ $k$

— moremo
fonte