Eu encontrei a ANOVA pela primeira vez quando eu era estudante de mestrado em Oxford em 1978. As abordagens modernas, ensinando variáveis contínuas e categóricas juntas no modelo de regressão múltipla, dificultam para os estatísticos mais jovens entenderem o que está acontecendo. Portanto, pode ser útil voltar a tempos mais simples.
Na sua forma original, a ANOVA é um exercício de aritmética em que você divide a soma total de quadrados em partes associadas a tratamentos, bloqueios, interações, o que for. Em uma configuração equilibrada, somas de quadrados com um significado intuitivo (como SSB e SST) somam a soma total ajustada de quadrados. Tudo isso funciona graças ao Teorema de Cochran . Usando Cochran, você pode calcular os valores esperados desses termos sob as hipóteses nulas usuais e as estatísticas F fluem a partir daí.
Como um bônus, uma vez que você começa a pensar em Cochran e somas de quadrados, faz sentido continuar fatiando e cortando suas somas de tratamento com quadrados usando contrastes ortogonais. Cada entrada na tabela ANOVA deve ter uma interpretação de interesse para o estatístico e gerar uma hipótese testável.
Recentemente, escrevi uma resposta em que surgiu a diferença entre os métodos MOM e ML. A questão ativou a estimativa de modelos de efeitos aleatórios. Nesse ponto, a abordagem tradicional da ANOVA separa totalmente a empresa com estimativa de máxima verossimilhança, e as estimativas dos efeitos não são mais as mesmas. Quando o design está desequilibrado, você também não obtém as mesmas estatísticas F.
σ2pσ2σ2+ n σ2pnσ2b^. A ANOVA produz um método de estimador de momentos para a variação do efeito aleatório. Agora, tendemos a resolver esses problemas com modelos de efeitos mistos e os componentes de variância são obtidos através da estimativa de máxima verossimilhança ou REML.
A ANOVA como tal não é um método de procedimento de momentos. Ele ativa a divisão da soma dos quadrados (ou mais geralmente, uma forma quadrática da resposta) em componentes que produzem hipóteses significativas. Depende fortemente da normalidade, pois queremos que as somas de quadrados tenham distribuições qui-quadrado para que os testes F funcionem.
A estrutura de máxima verossimilhança é mais geral e se aplica a situações como modelos lineares generalizados em que somas de quadrados não se aplicam. Alguns softwares (como R) provocam confusão ao especificar métodos anova para testes de razão de verossimilhança com distribuições qui-quadrado assintóticas. Pode-se justificar o uso do termo "anova", mas estritamente falando, a teoria por trás dele é diferente.