Estou tentando entender a origem das bandas de confiança em forma de curva associadas a uma regressão linear OLS e como ela se relaciona com os intervalos de confiança dos parâmetros de regressão (inclinação e interceptação), por exemplo (usando R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Parece que a banda está relacionada aos limites das linhas calculadas com a interceptação de 2,5% e a inclinação de 97,5%, bem como com a interceptação de 97,5% e a inclinação de 2,5% (embora não exatamente):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
O que eu não entendo são duas coisas:
- E a combinação de 2,5% de inclinação e 2,5% de interceptação, bem como 97,5% de inclinação e 97,5% de interceptação? Eles fornecem linhas claramente fora da banda plotada acima. Talvez eu não entenda o significado de um intervalo de confiança, mas se em 95% dos casos minhas estimativas estão dentro do intervalo de confiança, isso parece um resultado possível?
- O que determina a distância mínima entre o limite superior e o inferior (ou seja, próximo ao ponto em que as duas linhas adicionadas acima interceptam)?
Eu acho que ambas as questões surgem porque eu não sei / entendo como essas bandas são realmente calculadas.
Como posso calcular os limites superior e inferior usando os intervalos de confiança dos parâmetros de regressão (sem depender de predição () ou de uma função semelhante, ou seja, manualmente)? Tentei decifrar a função predict.lm em R, mas a codificação está além de mim. Eu apreciaria qualquer indicação de literatura relevante ou explicações adequadas para iniciantes em estatísticas.
Obrigado.