Qual é a relação entre ANOVA para comparar médias de vários grupos e ANOVA para comparar modelos aninhados?

11

Até agora, vi o ANOVA usado de duas maneiras:

Primeiro , no meu texto de estatística introdutória, a ANOVA foi introduzida como uma maneira de comparar médias de três ou mais grupos, como uma melhoria em comparação aos pares, a fim de determinar se um dos meios tem uma diferença estatisticamente significativa.

Segundo , no meu texto de aprendizado estatístico, vi a ANOVA usada para comparar dois (ou mais) modelos aninhados para determinar se o Modelo 1, que usa um subconjunto dos preditores do Modelo 2, se ajusta igualmente aos dados ou se o O modelo 2 é superior.

Agora, suponho que, de uma maneira ou de outra, essas duas coisas sejam realmente muito semelhantes, porque ambas estão usando o teste ANOVA, mas, na superfície, elas parecem bem diferentes para mim. Por um lado, o primeiro uso compara três ou mais grupos, enquanto o segundo método pode ser usado para comparar apenas dois modelos. Alguém poderia se importar em elucidar a conexão entre esses dois usos?

— Austin
fonte

2

Resumidamente, acho que a segunda "anova" não é uma ANOVA (se você ler en.wikipedia.org/wiki/Analysis_of_variance , não verá nenhuma menção à comparação de modelos aninhados). É um en.wikipedia.org/wiki/F-test e é implementado em R como anova()função, porque a primeira ANOVA real também está usando um teste-F. Isso leva à confusão da terminologia.

— amoeba diz Restabelecer Monica

Obrigado, eu acho que você acertou a unha na cabeça! Eu não tinha considerado que a anova()função pode fazer mais do que apenas ANOVA. Este post apoia a sua conclusão: stackoverflow.com/questions/20128781/f-test-for-two-models-in-r

— Austin

1

Um estatístico graduado me ensinou que a ANOVA como teste de várias amostras é a mesma coisa que a ANOVA como um teste de supremacia de modelo aninhado. A mesma coisa significa, na minha opinião, que comparamos uma soma (ou média) de resíduos resultantes de nenhum modelo ou modelo mais simples com os resíduos resultantes de um modelo, e o teste F é aplicável a ambas as situações, desde que as suposições sejam atendidas. A resposta que tentei é absolutamente sobre isso. Eu mesmo estaria interessado em entender a conexão entre pelo menos um coeficiente de lm diferente de zero (estatísticas F de um modelo) e a soma dos resíduos.

— Alexey Burnakov

11

No meu entendimento, a intuição abstrata da ANOVA é a seguinte: decompõe-se as fontes de variação da variável observada em várias direções e investiga as respectivas contribuições. Para ser mais preciso, decompõe-se o mapa de identidade em uma soma de projeções e investiga quais projeções / direções fazem uma importante contribuição para explicar a variação e quais não. A base teórica é o teorema de Cochran .

Para ser menos abstrato, lancei a segunda forma mencionada pelo OP na estrutura descrita. Posteriormente, interpreto a primeira forma como um caso especial da segunda.

Vamos considerar um modelo de regressão com variáveis explicativas (o modelo completo) e compará-lo ao modelo restrito com variáveis WLOG, as últimas variáveis do modelo completo não são incluídas no modelo restrito. A pergunta respondida pela ANOVA é $K$ $K-J$ $J$

"Podemos explicar uma variação significativamente maior na variável observada se incluirmos variáveis adicionais" $J$ ?

Esta pergunta é respondida comparando-se as contribuições de variação das primeiras variáveis , das próximas variáveis e da parte restante / inexplicável (a soma residual dos quadrados). Esta decomposição (obtida, por exemplo, do teorema de Cochran) é usada para construir o teste F. Assim, analisa-se a redução (incluindo mais variáveis) na soma residual dos quadrados do modelo restrito (correspondente ao todos os coeficientes pertencentes às últimas variáveis são zero ) incluindo mais variáveis e obtém a estatística F $K-J$ $J$ $H_0:$ $J$ Se o valor for grande o suficiente, a variação explicada pelasvariáveisadicionaisserá significativa.

\frac{\frac{R S S_{r e s t r} - R S S_{f você eu eu}}{J}}{\frac{R S S_{f você eu eu}}{N - K}}

$\frac{ \frac{RSS_{restr} - RSS_{full}}{J} }{ \frac{RSS_{full}}{N-K} }$

J

$J$

Agora, a primeira forma mencionada pelo OP é interpretada como um caso especial da segunda forma . Considere três grupos diferentes A, B, e C com meios , , e . O é testado através da comparação da variância explicada pela regressão sobre uma intercepção (o modelo restrito) com a variância explicada pelo modelo completo contendo uma intercepção, um manequim para o grupo A, e um fictício para o grupo B. A estatística F resultante $\mu_A$ $\mu_B$ $\mu_C$ $H_0: \mu_A = \mu_B = \mu_C$ é equivalente ao teste ANOVA naWikipedia. O denominador é igual à variação dentro dos grupos, o numerador é igual à variação entre os grupos. Se a variação entre os grupos é maior que a variação dentro dos grupos, rejeita-se a hipótese de que todas as médias são iguais.

\frac{\frac{R S S_{Eu n t e r c e p t} - R S S_{d você m m Eu e s}}{2}}{\frac{R S S_{d você m m Eu e s}}{N - 3}}

$\frac{ \frac{RSS_{intercept} - RSS_{dummies}}{2} }{ \frac{RSS_{dummies}}{N-3} }$

— bmbb
fonte

+1. Gostaria de saber se você concorda com minha observação sobre a terminologia no comentário aqui: stats.stackexchange.com/questions/315979/#comment602611_315979 .

— Ameba diz Reinstate Monica

Eu definitivamente concordo que há muita confusão na terminologia ;-). Coloquialmente, associo a ANOVA apenas à primeira forma de OP. Acabei de dar uma olhada no livro de Scheffé "The Analysis of Variance", no qual "desenhos aninhados" são mencionados.

— bmbb

@mbmbb, gostaria de acrescentar ao seu último comentário isso: um caso simples em que comparamos modelos lm aninhados, um dos quais é apenas interceptação. O fato que me impressionou sobre o modelo com interceptação é que, quando nos referimos a seus resíduos, de fato, nos referimos à sua variância, uma vez que os resíduos são calculados em relação a uma média variável (que é a interceptação do modelo), e são desvios de média da amostra. Assim, ainda fazemos a análise de variância no caso de modelos aninhados, mesmo se analisamos formalmente os resíduos.

— Alexey Burnakov

6

Se você estiver executando a ANOVA unidirecional para testar se há uma diferença significativa entre os grupos, estará implicitamente comparando dois modelos aninhados (portanto, existe apenas um nível de aninhamento, mas ele ainda está aninhado).

Esses dois modelos são:

$y_{ij}$ $i$ $j$ $\hat{\beta}_0$ $y_{Eu j} = {\hat{β}}_{0 0} + ϵ_{Eu}$ $y_{ij} = \hat{\beta}_0 + \epsilon_i$
Modelo 1: Os valores são modelados pelas médias estimadas dos grupos.

$\hat{\beta_j}$

$y_{Eu} = {\hat{β}}_{0 0} + {\hat{β}}_{j} + ϵ_{Eu}$ $y_i = \hat{\beta}_0 + \hat{\beta}_j + \epsilon_i$

Um exemplo de comparação de médias e equivalência a modelos aninhados: vamos pegar o comprimento da sépala (cm) do conjunto de dados da íris (se usarmos todas as quatro variáveis, poderíamos realmente fazer LDA ou MANOVA como Fisher fez em 1936)

As médias totais e de grupo observadas são:

\begin{matrix} μ_{t o t uma eu} & = 5,83 \\ μ_{s e t o s uma} & = 5.01 \\ μ_{v e r s Eu c o eu o r} & = 5,94 \\ μ_{v Eu r g Eu n Eu c uma} & = 6,59 \end{matrix}

$\begin{array} \\ \mu_{total} &= 5.83\\ \mu_{setosa} &= 5.01\\ \mu_{versicolor} &= 5.94\\ \mu_{virginica} &= 6.59\\ \end{array}$

Qual é o formato do modelo:

\begin{matrix} modelo 1: & y_{Eu j} = 5,83 + ϵ_{Eu} \\ modelo 2: & y_{Eu j} = 5.01 + {[\begin{matrix} 0 0 \\ 0,93 \\ 1,58 \end{matrix}]}_{j} + ϵ_{Eu} \end{matrix}

$\begin{array}\\ \text{model 1: }& y_{ij} = 5.83 + \epsilon_i\\ \text{model 2: }& y_{ij} = 5.01 + \begin{bmatrix} 0 \\ 0.93 \\ 1.58 \end{bmatrix}_j + \epsilon_i\\ \end{array}$

$\sum{\epsilon_i^2} = 102.1683$

$\sum{\epsilon_i^2} = 38.9562$

E a tabela ANOVA será como (e calcule implicitamente a diferença que é a soma dos quadrados entre os grupos, que é a 63.212 na tabela com 2 graus de liberdade):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F = \frac{\frac{R S S_{d Eu f f e r e n c e}}{D F_{d Eu f f e r e n c e}}}{\frac{R S S_{n e W}}{D F_{n e W}}} = \frac{\frac{63.212}{2}}{\frac{38.956}{147}} = 119,26

$F = \frac{\frac{RSS_{difference}}{DF_{difference}}}{\frac{RSS_{new}}{DF_{new}}} = \frac{\frac{63.212}{2}}{\frac{38.956}{147}} = 119.26$

conjunto de dados usado no exemplo:

comprimento da pétala (cm) para três espécies diferentes de flores de íris

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

— Sextus Empiricus
fonte

1

+1, mas formatar a tabela de dados como uma tabela de látex é uma prática muito ruim !! Não se pode copiar e colar em qualquer lugar! Se você realmente deseja incluir os dados, por que não formatá-los como um bloco de código? Mas, nesse caso, você também pode vincular ao artigo da Wikipedia Fisher Iris que contém os dados.

— Ameba diz Reinstate Monica

Além disso, qual a sua opinião sobre o problema de terminologia que mencionei neste comentário stats.stackexchange.com/questions/315979/#comment602611_315979 ?

— Ameba diz Reinstate Monica

1

Não acredito que a terminologia difusa seja um grande problema. Na minha opinião, nunca considero a ANOVA apenas uma comparação de variação dentro e entre grupos e sempre faço a projeção mental para uma comparação de dois modelos. Não acredito que seja um grande problema, já que a distribuição f, uma razão de duas variáveis distribuídas qui-quadrado independentes, é, em certo sentido, uma razão de variações. A aplicação do teste f para estudar modelos aninhados é uma espécie de comparação de variações, análise de variações, portanto a ANOVA parece ok para mim (atualmente estou tentando procurar algumas referências históricas).

— Sextus Empiricus

Não estou dizendo que isso é um problema. Mas estou pensando se o termo "ANOVA" se refere ao teste F comparando modelos aninhados apenas em R (como sugeri no meu comentário vinculado) ou se é uma terminologia aceita mais ampla. Como não verifiquei os livros, minha evidência vem apenas da Wikipedia.

— Ameba diz Reinstate Monica

Nos Métodos Estatísticos de Fisher de 1925 para Pesquisadores, quando ele explica 'a análise de variância', ele inclui exemplos que aplicam a técnica a linhas de regressão (mas não a modelos aninhados).

— Sextus Empiricus

1

O uso da ANOVA na comparação entre vários modelos significa testar se pelo menos um dos coeficientes usados no modelo de ordem superior (e ausente no modelo de ordem inferior) é significativamente diferente de zero.

Isso equivale a dizer que a soma dos resíduos para o modelo de ordem superior é significativamente menor que a do modelo de ordem inferior.

Trata-se de dois modelos, já que a equação básica usada é

MSM/MSE

Onde MSM é a média dos resíduos quadrados do modelo de ordem mais baixa (onde a ordem mais baixa é a média da variável de destino, ou seja, interceptação).

( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )

Você pode ler tópicos semelhantes no CV, como

Como usar o anova para comparação de dois modelos?

— Alexey Burnakov
fonte

IMHO isso não responde à pergunta.

— Ameba diz Reinstate Monica

1

Pelo que eu aprendi,

Você pode usar as tabelas ANOVA para determinar se suas variáveis explicativas realmente afetam significativamente a variável de resposta e, assim, ajustam-se ao modelo apropriado.

$x_1$ $x_2$ $x_2$

y = β_{0 0} + β_{1} x_{1} + β_{2} x_{2} + ϵ

$y=\beta_0 + \beta_1x_1 + \beta_2x_2 + \epsilon$

y = β_{0 0} + β_{1} x_{1} + ϵ

$y=\beta_0 + \beta_1x_1 + \epsilon$

$x_1$

Aqui está um exemplo de saída ANOVA para um projeto no qual estou trabalhando em R, onde teste dois modelos (um com os dias variáveis e outro sem os dias variáveis):

Como você pode ver, o valor p correspondente do teste F é 0,13, que é maior que 0,05. Portanto, não podemos rejeitar a hipótese nula de que Days não tem efeito em Y. Portanto, escolho o modelo 1 em vez do modelo 2.

— JPMSpoof
fonte

IMHO isso não responde à pergunta.

— Ameba diz Reinstate Monica