Porque o ajuste linha de regressão por mínimos quadrados ordinários necessariamente passar pela média de seus dados (ou seja, ) -pelo menos enquanto você não suprimem a intercepção-incerteza sobre o verdadeiro valor do inclinação não tem qualquer efeito sobre a posição vertical da linha na parte média de x (ou seja, em y ˉ x ). Isso se traduz em incerteza menos vertical em ˉ x do que você tem o mais longe ˉ x você é. Se a interceptação, onde x = 0 é ˉ x(x¯,y¯)xy^x¯x¯x¯x=0x¯ , isso minimizará sua incerteza sobre o verdadeiro valor de . Em termos matemáticos, isto se traduz no menor valor possível do erro padrão para β 0 . β0β^0
Aqui está um exemplo rápido em R
:
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
Esta figura é um pouco ocupada, mas você pode ver os dados de vários estudos diferentes em que a distribuição de estava mais próxima ou mais distante de 0 . As encostas diferem um pouco de estudo para estudo, mas são bastante similares. (Aviso todos eles vão através do X circulado que eu usei para marca ( ˉ x , ˉ y ) .) No entanto, a incerteza sobre o verdadeiro valor desses encostas faz com que a incerteza sobre y para expandir a mais se afasta de ˉ x , o que significa que o S E ( β 0 )x0(x¯,y¯)y^x¯SE(β^0) muito grande para os dados que foram amostrados na vizinhança de e muito estreito para o estudo em que os dados foram amostrados perto de x = 0 . x=10x=0
Editar em resposta ao comentário: Infelizmente, centrando seus dados depois de tê-los não vai ajudar se você quiser saber a provável valor em algum x valor x nova . Em vez disso, você precisa centralizar sua coleta de dados no ponto que mais lhe interessa. Para entender melhor esses problemas, pode ser útil ler minha resposta aqui: Intervalo de previsão de regressão linear . yxxnew