Diferentes maneiras de produzir um intervalo de confiança para o odds ratio a partir da regressão logística


12

Estou estudando como construir um intervalo de confiança de 95% para odds ratio a partir dos coeficientes obtidos na regressão logística. Portanto, considerando o modelo de regressão logística,

log(p1p)=α+βx

de tal modo que x=0 para o grupo de controlo e x=1 para o caso do grupo.

Eu já li que a maneira mais simples é construir um IC 95% para β e aplicamos a função exponencial, ou seja,

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

Minhas perguntas são:

  1. Qual o motivo teórico que justifica esse procedimento? Eu sei odds ratio=exp{β} e estimadores de probabilidade máxima são invariantes. No entanto, não conheço a conexão entre esses elementos.

  2. O método delta deve produzir o mesmo intervalo de confiança de 95% que o procedimento anterior? Usando o método delta,

    exp{β^}˙N(β, exp{β}2Var(β^))

    Então,

    exp{β^}±1.96×exp{β}2Var(β^)

    Caso contrário, qual é o melhor procedimento?


1
Também gosto do bootstrap para IC, se tiver valores de parâmetros ou dados de treinamento de tamanho suficiente.
EngrStudent - Reintegrar Monica

2
Há uma maneira melhor de fazer isso, consulte stats.stackexchange.com/questions/5304/... para mais detalhes
mdewey

Respostas:


7
  1. A justificativa para o procedimento é a normalidade assintótica do LEM para β e resulta de argumentos envolvendo o Teorema do Limite Central.

  2. O método Delta vem de uma expansão linear (ie Taylor de primeira ordem) da função ao redor do MLE. Posteriormente, apelamos para a normalidade assintótica e imparcialidade do MLE.

Assintoticamente, ambos dão a mesma resposta. Mas, na prática, você preferiria o que parece mais normal. Neste exemplo, eu preferiria o primeiro porque é provável que o último seja menos simétrico.


3

Uma comparação de métodos de intervalos de confiança em um exemplo do ISL

O livro "Introdução à aprendizagem estatística", de Tibshirani, James, Hastie, fornece um exemplo na página 267 de intervalos de confiança para o grau de regressão logística polinomial 4 nos dados salariais . Citando o livro:

Modelamos o evento binário por meio de regressão logística com um polinômio grau-4. A probabilidade posterior ajustada de salário superior a US $ 250.000 é mostrada em azul, juntamente com um intervalo estimado de confiança de 95%.wage>250

Abaixo está uma rápida recapitulação de dois métodos para construir esses intervalos, bem como comentários sobre como implementá-los do zero

Intervalos de transformação Wald / Endpoint

  • Calcular os limites superior e inferior do intervalo de confiança para a combinação linear xTβ (usando o Wald CI)
  • Aplique uma transformação monotônica aos pontos extremos para obter as probabilidades.F(xTβ)

Como é uma transformação monotônica de x T βPr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

Concretamente, isso significa calcular e depois aplicar a conversão logit ao resultado para obter os limites inferior e superior:βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

Computando o erro padrão

xTβΣ

Var(xTβ)=xTΣx

Define the design matrix X and the matrix V as

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

where xi,j is the value of the jth variable for the ith observations and π^i represents the predicted probability for observation i.

The covariance matrix can then be found as: Σ=(XTVX)1 and the standard error as SE(xTβ)=Var(xTβ)

The 95% confidence intervals for the predicted probability can then be plotted as

enter image description here


Delta method confidence intervals

The approach is to compute the variance of a linear approximation of the function F and use this to construct large sample confidence intervals.

Var[F(xTβ^)]FT Σ F

Where is the gradient and Σ the estimated covariance matrix. Note that in one dimension:

F(xβ)β=F(xβ)xβxββ=xf(xβ)

Where f is the derivative of F. This generalizes in the multivariate case

Var[F(xTβ^)]fT xT Σ x f

In our case F is the logistic function (which we will denote π(xTβ)) whose derivative is

π(xTβ)=π(xTβ)(1π(xTβ))

We can now construct a confidence interval using the variance computed above.

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

In vector form for the multivariate case

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • Note that x represent a single data point in Rp+1, i.e. a single row of the design matrix X

enter image description here


A open ended conclusion

A look at the Normal QQ plots for both the probabilities and the negative log odds show that neither are normally distributed. Could this explain the difference ?

enter image description here

Source:


1

For most purposes the simplest way is probably best, as discussed in the context of a log transform on this page. Think about your dependent variable as being analyzed in the logit scale, with statistical tests performed and confidence intervals (CI) defined on that logit scale. The back transformation to odds ratio is simply to put those results into a scale that a reader might more readily grasp. This is also done, for example, in Cox survival analysis, where the regression coefficients (and the 95% CI) are exponentiated to obtain hazard ratios and their CI.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.