Seria interessante perceber que a divergência está no tipo de variáveis , e mais notavelmente nos tipos de variáveis explicativas . Na ANOVA típica, temos uma variável categórica com diferentes grupos e tentamos determinar se a medida de uma variável contínua difere entre os grupos. Por outro lado, o OLS tende a ser percebido principalmente como uma tentativa de avaliar a relação entre uma regressão contínua ou variável de resposta e um ou vários regressores ou variáveis explicativas . Nesse sentido, a regressão pode ser vista como uma técnica diferente, prestando-se a prever valores com base em uma linha de regressão.
No entanto , essa diferença não representa a extensão da ANOVA para o restante da análise do alfabeto de variância (ANCOVA, MANOVA, MANCOVA); ou a inclusão de variáveis codificadas por modelo na regressão OLS. Não estou claro sobre os marcos históricos específicos, mas é como se as duas técnicas tivessem crescido adaptações paralelas para lidar com modelos cada vez mais complexos.
Por exemplo, podemos ver que as diferenças entre ANCOVA versus OLS com variáveis fictícias (ou categóricas) (em ambos os casos com interações) são no máximo cosméticas. Por favor, desculpe minha partida dos limites do título da sua pergunta, em relação à regressão linear múltipla.
Nos dois casos, o modelo é essencialmente idêntico ao ponto em que R a lm
função é usada para executar ANCOVA . No entanto, pode ser apresentado como diferente no que diz respeito à inclusão de uma interceptação correspondente ao primeiro nível (ou grupo) da variável fator (ou categórica) no modelo de regressão.
Em um modelo equilibrado ( grupos tamanho igual , ) e apenas uma covariável (para simplificar a apresentação da matriz), a matriz do modelo no ANCOVA pode ser encontrada como uma variação de:n 1 , 2Eun1 , 2 , ⋯Eu
X= ⎡⎣⎢1n10 00 00 01n20 00 00 01n3xn10 00 00 0xn20 00 00 0xn3⎤⎦⎥
para grupos da variável fator, expressa em matrizes de blocos.3
Isso corresponde ao modelo linear:
α i β
y= αEu+ β1xn1+ β2xn2+ β3xn3+ ϵEu
com equivalente a equivalente aos diferentes grupos em uma ANOVA enquanto os diferentes 's são as inclinações da covariável para cada um dos grupos.
αEuβ
A apresentação do mesmo modelo no campo de regressão, e especificamente em R, considera uma interceptação geral, correspondente a um dos grupos, e a matriz do modelo pode ser apresentada como:
X= ⎡⎣⎢⎢⎢⋮J3 n , 1⋮0 01n20 00 00 01n3⋮x⋮0 00 00 00 0xn20 00 00 0xn3⎤⎦⎥⎥⎥
da equação OLS:
y= β0 0+ μEu+ β1xn1+ β2xn2+ β3xn3+ ϵEu
.
Nesse modelo, a interceptação geral é modificada em cada nível de grupo por , e os grupos também têm inclinações diferentes.μ iβ0 0μEu
Como você pode ver nas matrizes do modelo, a apresentação esconde a identidade real entre regressão e análise de variância.
Eu gosto de tipo de verificar isso com algumas linhas de código e os meus dados favoritos definidos mtcars
em R . Estou usando o lm
ANCOVA de acordo com o artigo de Ben Bolker disponível aqui .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
Quanto à parte da pergunta sobre qual método usar (regressão com R!), Você pode achar divertido esse comentário on-line que me deparei ao escrever este post.