Uma comparação de métodos de intervalos de confiança em um exemplo do ISL
O livro "Introdução à aprendizagem estatística", de Tibshirani, James, Hastie, fornece um exemplo na página 267 de intervalos de confiança para o grau de regressão logística polinomial 4 nos dados salariais . Citando o livro:
Modelamos o evento binário por meio de regressão logística com um polinômio grau-4. A probabilidade posterior ajustada de salário superior a US $ 250.000 é mostrada em azul, juntamente com um intervalo estimado de confiança de 95%.wage>250
Abaixo está uma rápida recapitulação de dois métodos para construir esses intervalos, bem como comentários sobre como implementá-los do zero
Intervalos de transformação Wald / Endpoint
- Calcular os limites superior e inferior do intervalo de confiança para a combinação linear xTβ (usando o Wald CI)
- Aplique uma transformação monotônica aos pontos extremos para obter as probabilidades.F(xTβ)
Como é uma transformação monotônica de x T βPr(xTβ)=F(xTβ)xTβ
[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]
Concretamente, isso significa calcular e depois aplicar a conversão logit ao resultado para obter os limites inferior e superior:βTx±z∗SE(βTx)
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
Computando o erro padrão
xTβΣ
Var(xTβ)=xTΣx
Define the design matrix X and the matrix V as
X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1,1x2,1⋮xn,1……⋱…x1,px2,p⋮xn,p⎤⎦⎥⎥⎥⎥⎥ V = ⎡⎣⎢⎢⎢⎢⎢π^1(1−π^1)0⋮00π^2(1−π^2)⋮0……⋱…00⋮π^n(1−π^n)⎤⎦⎥⎥⎥⎥⎥
where xi,j is the value of the jth variable for the ith observations and π^i represents the predicted probability for observation i.
The covariance matrix can then be found as: Σ=(XTVX)−1 and the standard error as SE(xTβ)=Var(xTβ)−−−−−−−−√
The 95% confidence intervals for the predicted probability can then be plotted as
Delta method confidence intervals
The approach is to compute the variance of a linear approximation of the function F and use this to construct large sample confidence intervals.
Var[F(xTβ^)]≈∇FT Σ ∇F
Where ∇ is the gradient and Σ the estimated covariance matrix. Note that in one dimension:
∂F(xβ)∂β=∂F(xβ)∂xβ∂xβ∂β=xf(xβ)
Where f is the derivative of F. This generalizes in the multivariate case
Var[F(xTβ^)]≈fT xT Σ x f
In our case F is the logistic function (which we will denote π(xTβ)) whose derivative is
π′(xTβ)=π(xTβ)(1−π(xTβ))
We can now construct a confidence interval using the variance computed above.
C.I.=[Pr(xβ^)−z∗Var[π(xβ^)]−−−−−−−−−√≤Pr(xβ^)+z∗Var[π(xβ^)]−−−−−−−−−√]
In vector form for the multivariate case
C.I.=[π(xTβ^)±z∗(π(xTβ^)(1−π(xTβ^)))TxT Var[β^] x π(xTβ^)(1−π(xTβ^))]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
- Note that x represent a single data point in Rp+1, i.e. a single row of the design matrix X
A open ended conclusion
A look at the Normal QQ plots for both the probabilities and the negative log odds show that neither are normally distributed. Could this explain the difference ?
Source: