Uma pergunta provavelmente muito básica sobre ANOVA multifatorial. Suponha um design bidirecional no qual testamos os efeitos principais A, B e a interação A: B. Ao testar o efeito principal de A com SS tipo I, o efeito SS é calculado como a diferença , em que é a soma dos quadrados dos erros residuais do modelo com apenas a interceptação, e o RSS do modelo com o fator A adicionado. Minha pergunta diz respeito à escolha do termo de erro:
Como você justifica que o termo de erro para este teste é normalmente calculado a partir do RSS do modelo completo A + B + A: B que inclui os efeitos principais e a interação?
... em vez de tirar o termo de erro do modelo irrestrito da comparação real (RSS do efeito principal A no caso acima):
Isso faz a diferença, pois o termo de erro do modelo completo é provavelmente (nem sempre) menor do que o termo de erro do modelo irrestrito na comparação. Parece que a escolha pelo termo do erro é um tanto arbitrária, criando espaço para as alterações desejadas no valor p apenas adicionando / removendo fatores que não são realmente interessantes, mas altere o termo do erro de qualquer maneira.
No exemplo a seguir, o valor F para A muda consideravelmente, dependendo da escolha do modelo completo, mesmo que a comparação real para o efeito SS permaneça a mesma.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
A mesma pergunta se aplica ao SS tipo II e, em geral, a uma hipótese linear geral, ou seja, a uma comparação de modelo entre um modelo restrito e um irrestrito dentro de um modelo completo. (Para SS tipo III, o modelo irrestrito é sempre o modelo completo, portanto a questão não surge lá)
IV1
(1º exemplo), as duas expressões para o denominador serão idênticas. No entanto, quando o modelo completo contém efeitos adicionais, o denominador para o teste muda, mesmo que a comparação do modelo ( vs. para SS tipo 1) não. Nos 3 exemplos, o quadrado médio de não muda (mesma comparação de modelo em todos os casos), mas o erro do quadrado médio muda. Estou interessado no que justifica a alteração do termo do erro quando a comparação real permanece a mesma. ~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))