Por que essas tabelas de regressão anova são idênticas?

Eu tenho duas regressões do mesmo Y e X de três níveis. No geral n = 15, com n = 5 em cada grupo ou nível de X. A primeira regressão trata o X como categórico, atribuindo variáveis indicadoras aos níveis 2 e 3 com o nível um sendo a referência. Os indicadores / manequins são assim: X1 = 1 se nível = 2, 0 se não X2 = 1 se nível = 3, 0 se não

Como resultado, meu modelo ajustado é mais ou menos assim: y = b0 + b1 (x1) + b2 (x2)

Eu executo a regressão e a saída inclui esta tabela de Análise de variância:

tabela

O restante da produção é irrelevante aqui.

Ok, então agora eu corro uma regressão diferente nos mesmos dados. Afasto a análise categórica e trato X como contínuo, mas adiciono uma variável à equação: X ^ 2, o quadrado de X. Então agora tenho o seguinte modelo: y = b0 + b1 (X) + b2 (X) ^ 2

Se eu executá-lo, ele cospe a mesma tabela exata de Análise de Variância que mostrei acima. Por que essas duas regressões dão origem às mesmas tabelas?

[O crédito por este pequeno dilema é dado a Thomas Belin no Departamento de Bioestatística da Universidade da Califórnia em Los Angeles.]

regression anova

— logjammin
fonte

Acho que você terá que nos mostrar o código que "faz a regressão" e, possivelmente, a etapa de dados (parece-me a saída SAS) que você usa para criar a tabela de dados na qual está operando.

— Brad S.

@ Brad, não acho que seja necessário: a situação está claramente descrita e não é necessária mais informação para explicar o que está acontecendo.

— whuber

@whuber Talvez. Eu acho, se você diz, mas parece um erro de programação para mim. Aguardo a sua resposta.

— Brad S.

@ Brad Não é um erro de programação: postei minha explicação. É uma boa pergunta, com interesse estatístico genuíno (e aplicabilidade).

— whuber

Ei, Brad, na verdade, é de um conjunto de problemas - a situação foi dada a mim da mesma maneira que eu dei a vocês, e a pergunta meio que colocou da mesma maneira: "por que eles seriam a mesma coisa?". É exatamente como eu expus: dois modelos, as mesmas tabelas ANOVA, o restante dos resultados nem sequer foram fornecidos (eu deveria ter deixado isso claro em vez de dizer "irrelevante").

— logjammin 6/12/19

Respostas:

Em termos de matriz, seus modelos estão na forma usual . $E[Y]=X\beta$

O primeiro modelo representa um elemento do primeiro grupo pela linha em , correspondente à interceptação, o indicador para a categoria 2 e o indicador para a categoria 3. Representa um elemento do segundo grupo por a linha e um elemento do terceiro grupo por . $(1,0,0)$ $X$ $(1,1,0)$ $(1,0,1)$

O segundo modelo usa linhas , e , respectivamente. $(1,1,1^2)=(1,1,1)$ $(1,2,2^2)=(1,2,4)$ $(1,3,3^2)=(1,3,9)$

Vamos chamar as matrizes de modelo resultantes e . Eles estão simplesmente relacionados: as colunas de um são combinações lineares das colunas do outro. Por exemplo, deixe $X_1$ $X_2$

V = (\begin{matrix} 1 & 1 & 1 \\ 0 & 1 & 3 \\ 0 & 2 & 8 \end{matrix}) .

$V = \pmatrix{1&1&1 \\ 0&1&3 \\ 0&2&8}.$

Então desde

(\begin{matrix} 1 & 0 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \end{matrix}) V = (\begin{matrix} 1 & 1 & 1 \\ 1 & 2 & 4 \\ 1 & 3 & 9 \end{matrix}),

$\pmatrix{1&0&0 \\ 1&1&0 \\ 1&0&1} V = \pmatrix{1&1&1 \\ 1&2&4 \\ 1&3&9},$

segue que

X_{1} V = X_{2} .

$X_1 V = X_2.$

Os modelos em si são, portanto, relacionados por

X_{1} β_{1} = E [Y] = X_{2} β_{2} = (X_{1} V) β_{2} = X_{1} (V β_{2}) .

$X_1\beta_1 = E[Y] = X_2\beta_2 = (X_1V)\beta_2 = X_1(V\beta_2).$

Ou seja, os coeficientes para o segundo modelo devem estar relacionados aos do primeiro modelo via $\beta_2$

β_{1} = V β_{2} .

$\beta_1 = V\beta_2.$

Portanto, o mesmo relacionamento vale para suas estimativas de mínimos quadrados. Isso mostra que os modelos têm ajustes idênticos : eles apenas os expressam de maneira diferente.

Como as primeiras colunas das duas matrizes de modelo são iguais, qualquer tabela ANOVA que decompõe a variação entre a primeira coluna e as colunas restantes não será alterada. Uma tabela ANOVA que distingue entre a segunda e a terceira coluna, no entanto, dependerá de como os dados são codificados.

Geometricamente (e um pouco mais abstratamente), o subespaço tridimensional de gerado pelas colunas de coincide com o subespaço gerado pelas colunas de . Portanto, os modelos terão ajustes idênticos. Os ajustes são expressos de maneira diferente apenas porque os espaços são descritos com duas bases diferentes. $\mathbb{R}^{15}$ $X_1$ $X_2$

Para ilustrar, são aqui dados como a sua (mas com diferentes respostas) e as análises correspondentes como gerados no R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Encaixe os dois modelos:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Exiba suas tabelas ANOVA:

anova(fit.1)
anova(fit.2)

A saída para o primeiro modelo é

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791

Para o segundo modelo, é

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791

Você pode ver que as somas residuais de quadrados são as mesmas. Adicionando as duas primeiras linhas no segundo modelo, você obterá o mesmo DF e a soma dos quadrados, a partir dos quais o mesmo quadrado médio, valor F e valor p podem ser calculados.

Por fim, vamos comparar as estimativas do coeficiente.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

A saída é

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225

Até as interceptações são completamente diferentes. Isso ocorre porque as estimativas de qualquer variável em uma regressão múltipla dependem das estimativas de todas as outras variáveis (a menos que sejam todas mutuamente ortogonais, o que não é o caso de nenhum dos modelos). No entanto, observe o que a multiplicação por realiza: $V$

(\begin{matrix} 1 & 1 & 1 \\ 0 & 1 & 3 \\ 0 & 2 & 8 \end{matrix}) (\begin{matrix} - 3.4627385 \\ 4.4667371 \\ - 0.5531225 \end{matrix}) = (\begin{matrix} 0.4508762 \\ 2.8073697 \\ 4.5084944 \end{matrix}) .

$\pmatrix{1&1&1 \\ 0&1&3 \\ 0&2&8}\pmatrix{-3.4627385 \\ 4.4667371 \\-0.5531225} = \pmatrix{ 0.4508762 \\ 2.8073697 \\ 4.5084944 }.$

Os ajustes são realmente os mesmos, conforme reivindicado.

— whuber
fonte

Caramba, cara. Eu nunca recebi uma resposta mais completa e completa ao fazer uma pergunta à Internet. Obrigado x1000, a sério.

— logjammin

Bem vindo ao nosso site! Espero que você continue usando e aguarde suas contribuições.

— whuber

Eu aprendi algo hoje! (upvoted)

— Brad S.

Resposta incrível. Mente explodida!

— Kdarps

Resumidamente, ambos os modelos estão saturados no sentido de fornecer previsões empíricas únicas da resposta em todos os três níveis de X. Pode ser óbvio para a variável de fator que codifica no modelo 1. Para uma tendência quadrática, é interessante notar que um fórmula quadrática pode interpolar quaisquer 3 pontos. Embora os contrastes sejam diferentes, em ambos os modelos, o teste global contra um modelo nulo de interceptação fornece inferência idêntica.

— AdamO
fonte