Se você não puder fazer isso ortogonalmente, faça-o bruto (regressão polinomial)


11

Ao realizar a regressão polinomial de Y para X , as pessoas às vezes usam polinômios brutos, às vezes polinômios ortogonais. Mas quando eles usam o que parece completamente arbitrário.

Aqui e aqui polinômios brutos são usados. Mas aqui e aqui , polinômios ortogonais parecem dar os resultados corretos. O que, como, por quê ?!

Em contraste com isso, ao aprender sobre regressão polinomial a partir de um livro didático (por exemplo, ISLR ), isso nem sequer menciona polinômios brutos ou ortogonais - apenas o modelo a ser ajustado é fornecido.

Então, quando precisamos usar o quê?
E por que os valores de p individuais para X , X2 etc. diferem muito entre esses dois valores?


1
Você deve pensar em quais valores p são diferentes quando ajusta o mesmo modelo aos mesmos dados usando polinômios brutos e ortogonais e sua interpretação. E as previsões do modelo?
Scortchi - Restabelece Monica

@ Scortchi Adicionei as informações relevantes à minha pergunta.
L7ll7

4
Outro bom motivo para usar polinômios ortogonais é a estabilidade numérica; a matriz de projeto associada para o ajuste na base monomial pode estar bastante mal condicionada para o ajuste de alto grau, pois os monômios de ordem superior são "quase linearmente dependentes" (um conceito que pode ser tornado mais preciso matematicamente), enquanto a matriz de projeto para polinômios ortogonais são um pouco melhor comportados. Discuti o caso das abscissas equispaced (Gram) aqui , mas o negócio é semelhante no caso não equispaced.
JM não é estatístico

(No entanto, não se deve ajustar a polinômios de alto grau sem uma boa razão para fazê-lo.)
JM não é estatístico

Respostas:


7

XX2X2X

Vamos dar uma olhada com uma simulação muito simples.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Agora, com um termo quadrático no modelo para ajustar.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

É claro que o teste geral ainda é significativo, mas acho que o resultado que estamos procurando não é esse. A solução é usar polinômios ortogonais.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

Observe que os coeficientes de xno primeiro modelo e de poly(x,2)1no segundo modelo não são iguais e até as interceptações são diferentes. Isso ocorre porque polyfornece vetores ortogonais, que também são ortogonais ao vetor rep(1, length(x)). Então poly(x,2)1não é, xmas sim (x -mean(x))/sqrt(sum((x-mean(x))**2))...

XX2

XX2


+1 Finalmente, uma resposta clara! Obrigado! Antes de eu aceitar, você pode me dizer, existem outras estatísticas, como R ^ 2 ou a estatística F, que eu deveria ler melhor o resumo do gráfico ortogonal do que o bruto? Além de plotar as variáveis, o ajuste usando polinômios brutos é bom para qualquer outra coisa nesse cenário?
L7ll7

E quando tenho vários preditores, o mesmo se aplica?
L7ll7

Como você "usaria polinômios ortogonais para decidir se deseja incluir um termo quadrático ou não"?
Scortchi - Restabelece Monica

1
A questão é que o teste do efeito de ordem mais alta, o quadrático nesse caso, é o mesmo, se você usa polinômios brutos ou ortogonais. Então, por que se preocupar com polinômios ortogonais?
Scortchi - Restabelece Monica

4
Bem, é claro que você simplesmente não deve fazer esses testes marginais nesse modelo; você deve reajustar após descartar o efeito de ordem mais alta. Polinômios ortogonais poupam você, permitindo um procedimento fácil de abaixar - talvez você possa ilustrar com um termo cúbico.
Scortchi - Restabelece Monica

3

Para fazer uma avaliação ingênua da situação:

{pn}n=1{p~}n=1L2([a,b])

L2([a,b])yL2([a,b])θnθ~nRn=1,2,L2

n=1θ~np~n=y=n=1θnpn.

k<

{pn}n=1k
{p~}n=1k,
L2([a,b])

{p~}n=1{pn}n=1y{p}n=1kkL2([a,b])

p

Portanto, em termos de previsão, não há (neste caso) nenhuma diferença.

Do ponto de vista computacional, uma matriz modelo que consiste em funções de base ortogonal possui boas propriedades numéricas / computacionais para o estimador de mínimos quadrados. Embora, ao mesmo tempo, do ponto de vista estatístico, a ortogonalização resulte em estimativas não correlacionadas, uma vez que sob as premissas padrão.var(θ~^)=Iσ²


A questão natural surge se existe um melhor sistema de base truncada. No entanto, a resposta à pergunta não é simples nem única e depende, por exemplo, da definição da palavra "melhor", ou seja, o que você está tentando arquivar.


1
(+1) Não há diferença em termos de previsão; & pode-se dizer que não há diferença em termos de qualquer inferência significativa.
Scortchi - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.