Intervalo de previsão de inicialização

Existe alguma técnica de autoinicialização disponível para calcular intervalos de previsão para previsões pontuais obtidas, por exemplo, por regressão linear ou outro método de regressão (k-vizinho mais próximo, árvores de regressão etc.)?

De alguma forma, sinto que a maneira às vezes proposta de apenas inicializar a previsão do ponto (veja, por exemplo, Intervalos de previsão para regressão kNN ) não está fornecendo um intervalo de previsão, mas um intervalo de confiança.

Um exemplo em R

# STEP 1: GENERATE DATA

set.seed(34345)

n <- 100 
x <- runif(n)
y <- 1 + 0.2*x + rnorm(n)
data <- data.frame(x, y)


# STEP 2: COMPUTE CLASSIC 95%-PREDICTION INTERVAL
fit <- lm(y ~ x)
plot(fit) # not shown but looks fine with respect to all relevant aspects

# Classic prediction interval based on standard error of forecast
predict(fit, list(x = 0.1), interval = "p")
# -0.6588168 3.093755

# Classic confidence interval based on standard error of estimation
predict(fit, list(x = 0.1), interval = "c")
# 0.893388 1.54155


# STEP 3: NOW BY BOOTSTRAP
B <- 1000
pred <- numeric(B)
for (i in 1:B) {
  boot <- sample(n, n, replace = TRUE)
  fit.b <- lm(y ~ x, data = data[boot,])
  pred[i] <- predict(fit.b, list(x = 0.1))
}
quantile(pred, c(0.025, 0.975))
# 0.8699302 1.5399179

Obviamente, o intervalo de inicialização de 95% básico corresponde ao intervalo de confiança de 95%, não ao intervalo de previsão de 95%. Então, minha pergunta: como fazê-lo corretamente?

bootstrap prediction-interval

— Michael M
fonte

Pelo menos no caso dos mínimos quadrados comuns, você precisará de mais do que apenas previsões pontuais; você deseja usar o erro residual estimado para também construir intervalos de previsão.

— Kodiologist 31/07

Relacionados: stats.stackexchange.com/q/44860

@duplo: obrigado por apontar isso. A duração correta dos intervalos de previsão clássicos depende diretamente da suposição de normalidade do termo de erro; portanto, se for muito otimista, certamente também a versão com bootstrap será se for derivada a partir daí. Gostaria de saber se existe, em geral, o método de inicialização trabalhando na regressão (não necessariamente OLS).

— Michael M

Eu acho que \ textit {inferência conforme} pode ser o que você deseja, o que permite criar intervalos de previsão baseados em reamostragem que tenham uma cobertura de amostra finita válida e que não cubram demais. Existe um bom artigo disponível em arxiv.org/pdf/1604.04173.pdf , que pode ser lido como uma introdução ao tópico, e um pacote R disponível em github.com/ryantibs/conformal .

— Simon Boge Brant 10/09

O método descrito abaixo é o descrito na Seção 6.3.3 de Davidson e Hinckley (1997), Bootstrap Methods e Their Application . Graças a Glen_b e seu comentário aqui . Dado que havia várias perguntas sobre a Validação cruzada sobre esse tópico, achei que valia a pena escrever.

O modelo de regressão linear é:

\begin{aligned} Y_{Eu} & = X_{Eu} β + ϵ_{Eu} \end{aligned}

$\begin{align} Y_i &= X_i\beta+\epsilon_i \end{align}$

Temos dados, , que usamos para estimar o $i=1,2,\ldots,N$ $\beta$

\begin{aligned} {\hat{β}}_{OLS} & = {(X^{'} X)}^{- 1} X^{'} Y \end{aligned}

$\begin{align} \hat{\beta}_{\text{OLS}} &= \left( X'X \right)^{-1}X'Y \end{align}$

Agora, queremos prever o que será para um novo ponto de dados, já que sabemos para ele. Esse é o problema de previsão. Vamos chamar o novo (que sabemos) e o novo (que gostaríamos de prever), . A predição habitual (se do princípio de que o ii d e não correlacionada com ) é: $Y$ $X$ $X$ $X_{N+1}$ $Y$ $Y_{N+1}$ $\epsilon_i$ $X$

\begin{aligned} Y_{N + 1}^{p} & = X_{N + 1} {\hat{β}}_{OLS} \end{aligned}

$\begin{align} Y^p_{N+1} &= X_{N+1}\hat{\beta}_{\text{OLS}} \end{align}$

O erro de previsão feito por esta previsão é:

\begin{aligned} e_{N + 1}^{p} & = Y_{N + 1} - Y_{N + 1}^{p} \end{aligned}

$\begin{align} e^p_{N+1} &= Y_{N+1}-Y^p_{N+1} \end{align}$

Podemos reescrever esta equação como:

\begin{aligned} Y_{N + 1} & = Y_{N + 1}^{p} + e_{N + 1}^{p} \end{aligned}

$\begin{align} Y_{N+1} &= Y^p_{N+1} + e^p_{N+1} \end{align}$

Agora, já calculamos. Então, se quisermos obrigado em um intervalo, digamos, 90% do tempo, tudo o que precisamos fazer é estimar de forma consistente os e percentis / quantis de , chamada eles , e o intervalo de previsão será $Y^p_{N+1}$ $Y_{N+1}$ $5^{th}$ $95^{th}$ $e^p_{N+1}$ $e^5,e^{95}$ . $\left[Y^p_{N+1}+e^5,Y^p_{N+1}+e^{95} \right]$

Como estimar os quantis / percentis de ? Bem, podemos escrever: $e^p_{N+1}$

\begin{aligned} e_{N + 1}^{p} & = Y_{N + 1} - Y_{N + 1}^{p} \\ = X_{N + 1} β + ϵ_{N + 1} - X_{N + 1} {\hat{β}}_{OLS} \\ = X_{N + 1} (β - {\hat{β}}_{OLS}) + ϵ_{N + 1} \end{aligned}

$\begin{align} e^p_{N+1} &= Y_{N+1}-Y^p_{N+1}\\ &= X_{N+1}\beta + \epsilon_{N+1} - X_{N+1}\hat{\beta}_{\text{OLS}}\\ &= X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right) + \epsilon_{N+1} \end{align}$

A estratégia será coletar amostras (de um modo de inicialização) muitas vezes de e, em seguida, calcular percentis da maneira usual. Assim, talvez que vai provar 10.000 vezes a partir , e em seguida, estimar os e percentis como o e mais pequenos da amostra. $e^p_{N+1}$ $e^p_{N+1}$ $5^{th}$ $95^{th}$ $500^{th}$ $9,500^{th}$

Para desenhar em , que pode inicializar erros (casos seria bom, também, mas estamos assumindo erros iid de qualquer maneira). Assim, em cada replicação de inicialização, você desenha vezes com a substituição dos resíduos ajustados pela variância (veja o próximo parágrafo) para obter , em seguida, fazer nova , OLS, em seguida, executados no novo conjunto de dados $X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right)$ $N$ $\epsilon^*_i$ $Y^*_i=X_i\hat{\beta}_{\text{OLS}}+\epsilon^*_i$ $\left(Y^*,X \right)$ para obter o dessa replicação . Por fim, este sorteio de replicação em é $\beta^*_r$ $X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right)$ $X_{N+1}\left( \hat{\beta}_{\text{OLS}}-\beta^*_r \right)$

$\epsilon$ $\epsilon_{N+1}$ $\left\{ e^*_1,e^*_2,\ldots,e^*_N \right\}$ $\left\{ s_1-\overline{s},s_2-\overline{s},\ldots,s_N-\overline{s} \right\}$ $s_i=e^*_i/\sqrt{(1-h_i)}$ $h_i$ $i$

$Y_{N+1}$ $X$ $X_{N+1}$

$Y^p_{N+1}=X_{N+1}\hat{\beta}_{\text{OLS}}$
$\left\{ s_1-\overline{s},s_2-\overline{s},\ldots,s_N-\overline{s}\right\}$ $s_i=e_i/\sqrt(1-h_{i})$
- $N$ $\left\{\epsilon^*_1,\epsilon^*_2,\ldots,\epsilon^*_N \right\}$
- $Y^*=X\hat{\beta}_{\text{OLS}}+\epsilon^*$
- $\beta^*_r=\left( X'X \right)^{-1}X'Y^*$
- $e^*_r=Y^*-X\beta^*_r$
- $s^*-\overline{s^*}$
- $\epsilon^*_{N+1,r}$
- $e^p_{N+1}$ $e^{p*}_r=X_{N+1}\left( \hat{\beta}_{\text{OLS}}-\beta^*_r \right)+\epsilon^*_{N+1,r}$
$5^{th}$ $95^{th}$ $e^p_{N+1}$ $e^5,e^{95}$
$Y_{N+1}$ $\left[Y^p_{N+1}+e^5,Y^p_{N+1}+e^{95} \right]$

Aqui está o Rcódigo:

# This script gives an example of the procedure to construct a prediction interval
# for a linear regression model using a bootstrap method.  The method is the one
# described in Section 6.3.3 of Davidson and Hinckley (1997),
# _Bootstrap Methods and Their Application_.


#rm(list=ls())
set.seed(12344321)
library(MASS)
library(Hmisc)

# Generate bivariate regression data
x <- runif(n=100,min=0,max=100)
y <- 1 + x + (rexp(n=100,rate=0.25)-4)

my.reg <- lm(y~x)
summary(my.reg)

# Predict y for x=78:
y.p <- coef(my.reg)["(Intercept)"] + coef(my.reg)["x"]*78
y.p

# Create adjusted residuals
leverage <- influence(my.reg)$hat
my.s.resid <- residuals(my.reg)/sqrt(1-leverage)
my.s.resid <- my.s.resid - mean(my.s.resid)


reg <- my.reg
s <- my.s.resid

the.replication <- function(reg,s,x_Np1=0){
  # Make bootstrap residuals
  ep.star <- sample(s,size=length(reg$residuals),replace=TRUE)

  # Make bootstrap Y
  y.star <- fitted(reg)+ep.star

  # Do bootstrap regression
  x <- model.frame(reg)[,2]
  bs.reg <- lm(y.star~x)

  # Create bootstrapped adjusted residuals
  bs.lev <- influence(bs.reg)$hat
  bs.s   <- residuals(bs.reg)/sqrt(1-bs.lev)
  bs.s   <- bs.s - mean(bs.s)

  # Calculate draw on prediction error
  xb.xb <- coef(my.reg)["(Intercept)"] - coef(bs.reg)["(Intercept)"] 
  xb.xb <- xb.xb + (coef(my.reg)["x"] - coef(bs.reg)["x"])*x_Np1
  return(unname(xb.xb + sample(bs.s,size=1)))
}

# Do bootstrap with 10,000 replications
ep.draws <- replicate(n=10000,the.replication(reg=my.reg,s=my.s.resid,x_Np1=78))

# Create prediction interval
y.p+quantile(ep.draws,probs=c(0.05,0.95))

# prediction interval using normal assumption
predict(my.reg,newdata=data.frame(x=78),interval="prediction",level=0.90)


# Quick and dirty Monte Carlo to see which prediction interval is better
# That is, what are the 5th and 95th percentiles of Y_{N+1}
# 
# To do it properly, I guess we would want to do the whole procedure above
# 10,000 times and then see what percentage of the time each prediction 
# interval covered Y_{N+1}

y.np1 <- 1 + 78 + (rexp(n=10000,rate=0.25)-4)
quantile(y.np1,probs=c(0.05,0.95))

— Conta
fonte

Obrigado pelas explicações úteis e detalhadas. Seguindo essas linhas, acho que uma técnica geral fora do OLS (técnicas baseadas em árvore, vizinho mais próximo etc.) não estará facilmente disponível, certo?

— Michael M

Existe um para florestas aleatórias: stats.stackexchange.com/questions/49750/…, que parece semelhante.

— Bill

X β

$X\beta$

f (X, θ)

$f(X, \theta)$

Como você generaliza os "resíduos ajustados à variância" - a abordagem OLS se baseia na alavancagem - existe um cálculo de alavancagem para um estimador arbitrário de f (X)?

— David Waterworth