Intervalo de previsão de regressão linear

Se a melhor aproximação linear (usando mínimos quadrados) dos meus pontos de dados é a linha $y=mx+b$ , como posso calcular o erro de aproximação? Se o cálculo do desvio padrão da diferença entre as observações e previsões $e_i=real(x_i)-(mx_i+b)$ , que pode depois dizer que uma verdadeira (mas não observado) valor $y_r=real(x_0)$ pertence ao intervalo ( ) com probabilidade ~ 68%, assumindo distribuição normal? $[y_p-\sigma, y_p+\sigma]$ $y_p=mx_0+b$

Esclarecer:

Fiz observações sobre uma função avaliando-a em alguns pontos . Ajustei essas observações a uma linha . Para que eu não observei, gostaria de saber quão grande pode ser . Usando o método acima, é correto dizer que $f(x)$ $x_i$ $l(x)=mx+b$ $x_0$ $f(x_0)-l(x_0)$ com prob. ~ 68%? $f(x_0) \in [l(x_0)-\sigma, l(x_0)+\sigma]$

— bmx
fonte

Eu acho que você está perguntando sobre intervalos de previsão. Observe, no entanto, que você usa "

", em vez de "

". Isso é um erro de digitação? Nós não prevemos

x_{i}

$x_i$

y_{i}

$y_i$

x

$x$

— gung - Restabelece Monica

@ gung: Eu uso

para indicar, por exemplo, tempo, e

o valor de alguma variável naquele momento, então

significa que eu fiz uma observação

no tempo

. Quero saber até que ponto as previsões da função de ajuste podem estar dos valores reais de y. Isso faz sentido? A função

retorna o valor "correto" de

, e meus pontos de dados consistem em

x

$x$

y

$y$

y = f (x)

$y=f(x)$

y

$y$

x

$x$

r e a l (x_{i})

$real(x_i)$

y

$y$

x_{i}

$x_i$

(x_{i}, r e a l (x_{i}))

${(x_i, real(x_i))}$

— bmx

Isso parece perfeitamente razoável. As partes nas quais estou focando são, por exemplo, "

", geralmente pensamos nos erros / resíduos em um modelo de registro como "

". O SD dos resíduos faz desempenhar um papel no cálculo intervalos de predição. É esse "

e_{i} = r e a l (x_{i}) - (m x_{i} + b)

$e_i=real(x_i)-(mx_i+b)$

e_{i} = y_{i} - (m x_{i} + b)

$e_i=y_i-(mx_i+b)$

x_{i}

$x_i$ "Isso é estranho para mim, eu estou querendo saber se é um erro de digitação, ou você está perguntando sobre algo que eu não reconheço.

— gung - Reintegrar Monica

Eu acho que vejo; Eu perdi sua edição. Isto sugere que o sistema é perfeitamente determinista e se você tivesse acesso à verdadeira função subjacente, você sempre pode prever

perfeitamente w / o erro. Não é assim que pensamos sobre os modelos de registro.

y_{i}

$y_i$

— gung - Restabelece Monica

bmx, Parece-me que você tem uma idéia clara da sua pergunta e uma boa percepção de alguns dos problemas. Você pode estar interessado em revisar três tópicos intimamente relacionados. stats.stackexchange.com/questions/17773 descreve intervalos de previsão em termos não técnicos ; stats.stackexchange.com/questions/26702 fornece uma descrição mais matemática; e em stats.stackexchange.com/questions/9131 , Rob Hyndman fornece a fórmula que você procura. Se eles não responderem totalmente à sua pergunta, pelo menos eles poderão fornecer uma notação e vocabulário padrão para esclarecê-la.

— whuber

O @whuber apontou três boas respostas, mas talvez eu ainda possa escrever algo de valor. Sua pergunta explícita, como eu a entendo, é:

Dada a minha modelo $\hat y_i=\hat mx_i + \hat b$ (aviso Eu adicionado chapéus '') , e assumindo que os resíduos são normalmente distribuídos, , que podem prever que um ainda resposta não observada, , com um valor preditivo conhecida, , vai cair dentro do intervalo $\mathcal N(0, \hat\sigma^2_e)$ $y_{new}$ $x_{new}$ , com probabilidade 68%? $(\hat y -\sigma_e, \hat y +\sigma_e)$

Intuitivamente, a resposta parece que deveria ser 'sim', mas a resposta verdadeira é talvez . Este será o caso quando os parâmetros (ou seja, & ) forem conhecidos e sem erros. Como você estimou esses parâmetros, precisamos levar em consideração a incerteza deles. $m, b,$ $\sigma$

Vamos primeiro pensar no desvio padrão de seus resíduos. Como isso é calculado a partir dos seus dados, pode haver algum erro na estimativa. Como resultado, a distribuição você deve usar para formar o seu intervalo de previsão deve ser , não o normal. No entanto, como converge rapidamente para o normal, é menos provável que seja um problema na prática. $t_\text{df error}$ $t$

$\hat y_\text{new}\pm t_{(1-\alpha/2,\ \text{df error})}s$ $\hat y_\text{new}\pm z_{(1-\alpha/2)}s$ $\hat m$ $\hat b$ $s_\text{error}$

s_{predictions(new)}^{2} = s_{error}^{2} + Var (\hat{m} x_{new} + \hat{b})

$s^2_\text{predictions(new)}=s^2_\text{error}+\text{Var}(\hat mx_\text{new}+\hat b)$

x

$x$

s^{2}

$s^2$

x

$x$

s_{predictions(new)} = \sqrt{s_{error}^{2} (1 + \frac{1}{N} + \frac{(x_{new} - \bar{x})^{2}}{\sum (x_{i} - \bar{x})^{2}})}

$s_\text{predictions(new)}=\sqrt{s^2_\text{error}\left(1+\frac{1}{N}+\frac{(x_\text{new}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)}$ As an interesting side note, we can infer a few facts about prediction intervals from this equation. First, prediction intervals will be narrower the more data we had when we built the prediction model (this is because there's less uncertainty in

\hat{m}

$\hat m$ &

\hat{b}

$\hat b$ ). Second, predictions will be most precise if they are made at the mean of the

x

$x$ values you used to develop your model, as the numerator for the third term will be

0

$0$ . The reason is that under normal circumstances, there is no uncertainty about the estimated slope at the mean of

x

$x$ , only some uncertainty about the true vertical position of the regression line. Thus, some lessons to be learned for building prediction models are: that more data is helpful, not with finding 'significance', but with improving the precision of future predictions; and that you should center your data collection efforts on the interval where you will need to be making predictions in the future (to minimize that numerator), but spread the observations as widely from that center as you can (to maximize that denominator).

Having calculated the correct value in this manner, we can then use it with the appropriate $t$ distribution as noted above.

— gung - Reinstate Monica
fonte