Regressão logística ordinal com uma função de vínculo diferente


8

Considere uma variável de resultado que possui quatro categorias claras e ordenadas. Isso parece ser um bom uso da regressão logística ordinal para estimar a Odds Ratios para o efeito das covariáveis ​​em mover um sujeito um "degrau" da escada.

Mas os assuntos estão particularmente uniformemente espalhados pelas categorias, então surge uma pergunta:

  • O "pressuposto de resultado raro" para uma OR aproximar um risco relativo ainda é verdadeiro na regressão logística ordinal?
  • Nesse caso, é possível alterar a função de link para estimar diretamente um risco relativo e ainda é possível usar algo como uma aproximação de poisson com erros padrão robustos para lidar com problemas de convergência nesse caso?

Respostas:


2

Acho que primeiro precisamos perguntar se é necessário usar regressão logística de probabilidades proporcionais para aproximar um risco relativo cumulativo, por exemplo, o risco relativo de relatar um resultado mais alto. A formulação probabilística do modelo de chances proporcionais se baseia na observação de caixas arbitrárias de uma variável aleatória logística latente. Veja minha pergunta relevante aqui . A elegância desse método é que a função de sobrevivência (1-CDF) de um RV logístico é o logit inverso, por exemplo, .P(Z>z)=exp(z)/(1+exp(z))

Se quisermos assumir uma derivação probabilística semelhante de um modelo de risco relativo, o desejo é encontrar uma variável aleatória latente cuja função de sobrevivência seja . Mas isso é apenas uma variável aleatória exponencial, que não tem memória. Portanto, se construirmos a matriz de variáveis ​​de resultado com limiar, , (acredito) as frequências das células são condicionalmente independentes e, portanto, são passíveis de modelagem via um modelo log-linear que é apenas regressão de Poisson. Isso é tranquilizador, porque a interpretação dos coeficientes de Poisson é uma taxa relativa. Modelar a interação entre a variável resposta como resultado numérico e os coeficientes de regressão leva à interpretação correta.O i j = IP(Z>z)=exp(z)Oij=I(Yij)

Ou seja, ajuste o modelo log-linear:

log(Nij|Yi,Xi,)=η0I(Yi=0)++ηjI(Yi==j)+βXi,+γdiag(Y)Xi,

Usando o exemplo do pacote MASS: vemos o efeito desejado de que o risco relativo é muito menor que o OR em todas as instâncias:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

Nos dá:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

Onde as 4 primeiras colunas são inferência do modelo log-linear e as 3 colunas seguintes provêm do modelo de chances proporcionais.

Isso talvez responda à pergunta mais importante: como alguém se encaixa nesse modelo. Eu acho que pode ser usado para explorar as aproximações relativas de ORs para eventos raros em relação aos RRs.


1

Vamos abordar suas duas perguntas separadamente:

O "pressuposto de resultado raro" para uma OR aproximar um risco relativo ainda é verdadeiro na regressão logística ordinal?

Na verdade não. Você mesmo disse que seus resultados estão distribuídos igualmente nas quatro categorias; portanto, nenhuma categoria será particularmente rara.

Nesse caso, é possível alterar a função de link para estimar diretamente um risco relativo e ainda é possível usar algo como uma aproximação de poisson com erros padrão robustos para lidar com problemas de convergência nesse caso?

Você pode, mas existe o risco de que, ao usar seu modelo para fazer previsões, a probabilidade prevista de pertencer a uma classe possa ser maior que 1.

O modelo de logit ordenado padrão é formulado juntamente com a suposição de probabilidades proporcionais. Tudo o que estamos fazendo é substituir o "logit" por "log", que ainda produz um modelo válido com uma probabilidade válida que produz estimativas válidas para . Porém, quando você aplica esses dados a dados reais, é possível que um componente para seja mais de um (e, como esse valor está fora do intervalo da suposição de probabilidades proporcionais, você não pode usá-lo para preencher o restante componentes).β p i

Yicategorical(pi);logit(pi)=Xβ
βpi

Isso não pode acontecer se você usar apenas o seu modelo para prever os dados em que foi treinado e é menos provável se

  • você tem muitos dados de treinamento
  • seus dados de treinamento abrangem todas as combinações possíveis de covariáveis ​​(se forem categóricas) ou toda a gama de covariáveis ​​(se forem numéricas)

1
Eu não acho que você tenha escrito o modelo de logit ordenado padrão correto. Você tem uma cópia da Agresti ou McCullogh & Nelder? Concordou que, se a distribuição da resposta estiver entre as categorias de logit ordenadas , a aproximação será discutível. Mas e se a maioria dos participantes estivesse agrupada na categoria de resposta mais baixa? K
AdamO

1
@AdamO provavelmente não é a formulação a que você está acostumado, mas é equivalente (desde que Xinclua uma interceptação). Eu o escolhi, pois enfatiza os pontos mais relevantes para a questão. (Obviamente não é equivalente uma vez que você substituir logit com registro, mas esta formulação parece generalizar o melhor)
JDL

1
O modelo de probabilidades de prop tem restrições importantes, a saber, o termo de interceptação (não representado) para cada contraste categórico é ordenado; além disso, é a designação categórica, mas a probabilidade modelada é a probabilidade cumulativa . Acho que estou seguro em dizer que você apenas escreveu um modelo logístico incondicional e isso não está correto. Yi
Adamo

Essas restrições são tratadas pelo pressuposto de chances proporcionais. (Concordo que não são expressos na equação afirmei)
JDL
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.