O @whuber apontou três boas respostas, mas talvez eu ainda possa escrever algo de valor. Sua pergunta explícita, como eu a entendo, é:
Dada a minha modelo y^i=m^xi+b^ (aviso Eu adicionado chapéus '') , e assumindo que os resíduos são normalmente distribuídos, , que podem prever que um ainda resposta não observada, y n e w , com um valor preditivo conhecida, x n e w , vai cair dentro do intervalo ( y - σ e , y + σN(0,σ^2e)ynewxnew , com probabilidade 68%?(y^−σe,y^+σe)
Intuitivamente, a resposta parece que deveria ser 'sim', mas a resposta verdadeira é talvez . Este será o caso quando os parâmetros (ou seja, & σ ) forem conhecidos e sem erros. Como você estimou esses parâmetros, precisamos levar em consideração a incerteza deles. m,b,σ
Vamos primeiro pensar no desvio padrão de seus resíduos. Como isso é calculado a partir dos seus dados, pode haver algum erro na estimativa. Como resultado, a distribuição você deve usar para formar o seu intervalo de previsão deve ser , não o normal. No entanto, como ot converge rapidamente para o normal, é menos provável que seja um problema na prática. tdf errort
y^new±t(1−α/2, df error)sy^new±z(1−α/2)sm^b^serror
s2predictions(new)=s2error+Var(m^xnew+b^)
xs2xspredictions(new)=s2error(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−−−√
As an interesting side note, we can infer a few facts about prediction intervals from this equation. First, prediction intervals will be narrower the more data we had when we built the prediction model (this is because there's less uncertainty in
m^ &
b^). Second, predictions will be most precise if they are made at the mean of the
x values you used to develop your model, as the numerator for the third term will be
0. The reason is that under normal circumstances, there is no uncertainty about the estimated slope at the mean of
x, only some uncertainty about the true vertical position of the regression line. Thus, some lessons to be learned for building prediction models are: that more data is helpful, not with finding 'significance', but with improving the precision of future predictions; and that you should center your data collection efforts on the interval where you will need to be making predictions in the future (to minimize that numerator), but spread the observations as widely from that center as you can (to maximize that denominator).
Having calculated the correct value in this manner, we can then use it with the appropriate t distribution as noted above.