Evidentemente, essa pergunta veio de um estudo com um design bidirecional desequilibrado, analisado em R com a aov()
função; Esta página fornece um exemplo mais recente e detalhado desse problema.
A resposta geral a esta pergunta, e a tantas, é: "Depende". Aqui depende se o design é equilibrado e, se não, qual o sabor da ANOVA escolhido.
Primeiro, depende se o design é equilibrado. No melhor de todos os mundos possíveis, com números iguais de casos em todas as células de um planejamento fatorial, não haveria diferença devido à ordem de inserção dos fatores no modelo, independentemente de como a ANOVA é realizada. * Os casos em questão , evidentemente, de uma coorte clínica retrospectiva, parecem pertencer a um mundo real onde esse equilíbrio não foi encontrado. Portanto, a ordem pode importar.
Segundo, depende de como a ANOVA é realizada, o que é uma questão um tanto controversa. Os tipos de ANOVA para projetos desequilibrados diferem na ordem de avaliação dos principais efeitos e interações. A avaliação das interações é fundamental para a ANOVA bidirecional e de ordem superior, para que haja disputas sobre a melhor maneira de prosseguir. Consulte esta página Cross Validated para uma explicação e discussão. Consulte os detalhes e o aviso para a função Anova()
(com letra maiúscula "A") no manual do car
pacote para uma visão diferente.
A ordem dos fatores é importante em projetos desequilibrados sob o padrão aov()
em R, que usa os chamados testes tipo I. Essas são atribuições de variação sequenciais a fatores na ordem de entrada no modelo, conforme a presente questão. A ordem não importa com os testes tipo II ou tipo III fornecidos pela Anova()
função no car
pacote em R. Essas alternativas, no entanto, têm suas próprias desvantagens em potencial observadas nos links acima.
Por fim, considere a relação com a regressão linear múltipla como lm()
em R, que é essencialmente o mesmo tipo de modelo se você incluir termos de interação. A ordem de entrada das variáveis em lm()
não importa em termos de coeficientes de regressão e valores de p relatados por summary(lm())
, nos quais um fator categórico no nível k é codificado como variáveis fictícias binárias (k-1) e um coeficiente de regressão é relatado para cada dummy .
No entanto, é possível agrupar a lm()
saída com anova()
("minúsculo", do stats
pacote R ) ou Anova()
resumir a influência de cada fator em todos os seus níveis, como se espera na ANOVA clássica. Então, a ordem dos fatores será importante tanto anova()
quanto para aov()
e não será importante Anova()
. Da mesma forma, as disputas sobre qual tipo de ANOVA usar retornariam. Portanto, não é seguro assumir a independência da ordem da entrada de fatores com todos os usos posteriores dos lm()
modelos.
* Ter um número igual de observações em todas as células é suficiente, mas, pelo que entendi, não é necessário para que a ordem dos fatores seja irrelevante. Tipos de equilíbrio menos exigentes podem permitir a independência da ordem.