Entendendo o formato do intervalo de confiança para regressão polinomial (MLR)

11

Tenho dificuldades para entender a forma do intervalo de confiança de uma regressão polinomial.

Aqui é um exemplo . A figura da esquerda mostra a UPV (variação de previsão não escalonada) e o gráfico da direita mostra o intervalo de confiança e os pontos medidos (artificiais) em X = 1,5, X = 2 e X = 3. $\hat{Y}=a+b\cdot X+c\cdot X^2$

Detalhes dos dados subjacentes:

o conjunto de dados consiste em três pontos de dados (1,5; 1), (2; 2,5) e (3; 2,5).
cada ponto foi "medido" 10 vezes e cada valor medido pertence a . Uma MLR com um modelo poynomial foi realizada nos 30 pontos resultantes. $y \pm 0.5$
o intervalo de confiança foi calculado com as fórmulas e
$U P V = \frac{V a r [\hat{y} (x_{0})]}{{\hat{σ}}^{2}} = x_{0}^{'} (X^{'} X)^{- 1} x_{0}$ $UPV=\frac{Var[\hat{y}(x_0)]}{\hat{\sigma}^2}=x_0'(X'X)^{-1}x_0$ $\hat{y} (x_{0}) - t_{α / 2, d f (e r r o r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} (X^{'} X)^{- 1} x_{0}}$ $\hat{y}(x_0) - t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0}$ (ambas as fórmulas são retiradas de Myers, Montgomery, Anderson-Cook, "Response Surface Methodology" quarta edição, páginas 407 e 34) $\leq μ_{y | x_{0}} \leq \hat{y} (x_{0}) + t_{α / 2, d f (e r r o r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} (X^{'} X)^{- 1} x_{0}} .$ $\leq \mu_{y|x_0} \leq \hat{y}(x_0) + t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} .$

e . $t_{\alpha /2, df(error)}=2$ $\hat{\sigma}^2=MSE=SSE/(n-p)\sim0.075$

$x_0'(X'X)^{-1}x_0$

Figura 1:

a variação prevista muito alta fora do espaço de design é normal porque estamos extrapolando
mas por que a variação é menor entre X = 1,5 e X = 2 do que nos pontos medidos?
e por que a variância se amplia para valores acima de X = 2, mas depois diminui após X = 2,3 e se torna novamente menor do que no ponto medido em X = 3?

Não seria lógico que a variação fosse pequena nos pontos medidos e grande entre eles?

Editar: mesmo procedimento, mas com pontos de dados [(1.5; 1), (2.25; 2.5), (3; 2.5)] e [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2,5)].

Figura 2:

Figura 3:

$\hat{y} \pm t_{\alpha /2, df(error)}\cdot \sqrt{MSE}$

regression confidence-interval

— John Tokka Tacos
fonte

2

Você pode editar sua postagem para incluir os dados com os quais trabalha?

— Stephan Kolassa 02/07

@StephanKolassa Tentei explicar quais dados eu usei. No entanto, a questão é mais geral e não está vinculada a um exemplo específico.

— John Tokka Tacos

Se você fornecer os dados, será mais fácil ilustrar uma resposta.

— 10138 Stephan Stephanoassass

6

$(x,y)$ $(x,x^2,y)$

Pagamos o preço de precisar olhar para objetos tridimensionais, o que é difícil de fazer em uma tela estática. (Acho que as imagens rotativas sem fim são irritantes e, portanto, não causam nenhuma delas, mesmo que possam ser úteis.) Portanto, essa resposta pode não agradar a todos. Mas aqueles que desejam adicionar a terceira dimensão à sua imaginação serão recompensados. Proponho ajudá-lo nesse esforço por meio de alguns gráficos cuidadosamente escolhidos.

Vamos começar visualizando as variáveis independentes . No modelo de regressão quadrática

\begin{matrix} (1) & y_{i} = β_{0} + β_{1} (x_{i}) + β_{2} (x_{i}^{2}) + error, \end{matrix}

$y_i = \beta_0 + \beta_1 (x_i) + \beta_2 (x_i^2) + \text{error},\tag{1}$

$(x_i)$ $(x_i^2)$ $(x_i,x_i^2)$ $x$ $x^2.$ $(t,t^2):$

$(x,x^2)$

A regressão quadrática ajusta um plano a esses pontos.

$(\beta_0,\beta_1,\beta_2),$ $(x,x^2,y)$ $(1)$ $-\beta_1(x)-\beta_2(x^2)+(1)y-\beta_0,$ $(-\beta_1,-\beta_2,1).$ $\beta_1=-55/8$ $\beta_2=15/2,$ $1,$ $(x,x^2)$ avião.)

Aqui está o plano dos mínimos quadrados ajustado a esses pontos:

$y=f(x,x^2),$ $(t,t^2)$

t \to (t, t^{2}, f (t, t^{2}))

$t\to (t, t^2, f(t,t^2))$

$x$ $y$ $x^2$

$(x,\hat y)$ $\hat y$ $x.$

A banda de confiança para essa curva ajustada mostra o que pode acontecer com o ajuste quando os pontos de dados variam aleatoriamente. Sem alterar o ponto de vista, plotei cinco planos ajustados (e suas curvas levantadas) para cinco novos conjuntos de dados independentes (dos quais apenas um é mostrado):

$x \approx 1.75$ $x \approx 3.$

Vejamos a mesma coisa pairando acima do gráfico tridimensional e olhando levemente para baixo e ao longo do eixo diagonal do plano. Para ajudá-lo a ver como os planos mudam, também comprimi a dimensão vertical.

$(t,t^2)$ $(x,x^2).$

$(x_i,x_i^2)$ $\mathcal L$ $(x,x^2)$ $(x,x^2)$ $(x,x^2)$ $\mathcal L.$

$\mathcal L$ $t\to(t,t^2)$ $\mathcal L$ $x$ $1.7$ $2.9$

$(x,y)$

Essa análise se aplica conceitualmente à regressão polinomial de alto grau, bem como à regressão múltipla em geral. Embora não possamos realmente "ver" mais de três dimensões, a matemática da regressão linear garante que a intuição derivada de gráficos bidimensionais e tridimensionais do tipo mostrado aqui permaneça precisa em dimensões superiores.

— whuber
fonte

Obrigado por esta ótima resposta! Nunca me ocorreu que a regressão quadrática ajusta um plano aos pontos. Essas formulações geométricas são realmente intuitivas e me ajudaram bastante.

— John Tokka Tacos

1

Esta é uma grande resposta tão - que deve compilar seus melhores posts e transformá-los em um livro de código aberto

— Xavier Bourret Sicotte

1

@ Xavier Obrigado pelas amáveis palavras. Tenho pensado em algo assim e aceito todas as sugestões e críticas construtivas.

— whuber

1

Intuitivo

Em um sentido muito intuitivo e aproximado, você pode ver a curva polinomial como duas curvas lineares unidas (uma subindo e uma diminuindo). Para essas curvas lineares, você deve se lembrar da forma estreita no centro .

Os pontos à esquerda do pico têm relativamente pouca influência nas previsões à direita do pico e vice-versa.

Portanto, você pode esperar duas regiões estreitas em ambos os lados do pico (onde as mudanças nas encostas dos dois lados têm relativamente pouco efeito).
A região ao redor do pico é relativamente mais incerta, pois uma mudança na inclinação da curva tem um efeito maior nessa região. Você pode desenhar muitas curvas com um grande deslocamento do pico, que ainda passa razoavelmente pelos pontos de medição

Ilustração

Abaixo está uma ilustração com alguns dados diferentes, que mostram mais facilmente como esse padrão (você pode dizer um nó duplo) pode surgir:

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

Formal

^{$x$

$x$}

— Sextus Empiricus
fonte

1

Estou tendo dificuldade em acreditar nessa caracterização ou em qualquer uma de suas conclusões, porque tenho certeza de que a regressão quadrática simplesmente não se comporta dessa maneira. Você poderia me convencer, fornecendo alguma justificativa para eles?

— whuber

1

Eu acho que depende da posição dos pontos. No exemplo, os pontos estão nos dois lados do pico. Então você pode considerar a posição do pico como uma espécie de extrapolação. Farei um exemplo mais extremo depois. (Eu também me pergunto como a regressão é realizada, mas eu imagino que o erro nos coeficientes é considerado ser correlacionados ou caso contrário, você na verdade não recebem esse padrão)

— Sexto Empírico

(x_{i}, x_{i}^{2})

$(x_i, x_i^2)$

x

$x$

x^{2}

$x^2$