ANOVA de medidas repetidas vs. ANOVA fatorial com fator de sujeito: entendendo “estratos de erro” e termo de Erro () em aov


8

Considere ANOVA de medidas repetidas (RM-ANOVA) com um fator dentro do assunto Ae várias medidas por assunto para cada nível de A.

Está intimamente relacionado à ANOVA bidirecional com dois fatores: Ae subject. Eles usam decomposição idêntica da soma dos quadrados em quatro partes: A, subject, A⋅subject, e residual. No entanto, a ANOVA de duas vias testa o efeito de A comparando SS de A com a SS residual, enquanto a RM-ANOVA testa o efeito de A comparando SS de A com a interação do sujeito A SS.

Por que a diferença?

  1. Essa diferença decorre automaticamente da estrutura de medidas repetidas dos dados ou é alguma convenção?
  2. Essa diferença entre ANOVA bidirecional e RM-ANOVA corresponde ao teste de dois nulos diferentes? Se sim, o que exatamente são e por que usaríamos nulos diferentes nesses dois casos?
  3. O teste de ANOVA de duas vias pode ser entendido como um teste F entre dois modelos aninhados: o modelo completo e o modelo sem A. O RM-ANOVA pode ser entendido de maneira semelhante?

(Se houver apenas uma medida por sujeito para cada nível de A, a distinção desaparecerá porque A assunto e a variação residual não podem ser desembaraçadas: A ANOVA de medidas repetidas de uma via é equivalente a uma ANOVA de duas vias? )


Demonstração

Usarei os dados de brinquedos d2gerados em http://dwoll.de/rexrepos/posts/anovaMixed.html . A mesma página mostra a sintaxe correta para o RM-ANOVA.

# Discarding between-subject factors and leaving only one within-subject factor
d = d2[d2$Xb1=='CG' & d2$Xb2 == 'f', c(1,4,6)]

(Veja a versão reproduzível aqui em pastebin .) Os dados são assim:

     id Xw1     Y
1    s1   A  28.6
2    s1   A  96.6
3    s1   A  64.8
4    s1   B 107.5
5    s1   B  77.3
6    s1   B 120.9
7    s1   C 141.2
8    s1   C 124.1
9    s1   C  88.0
10   s2   A  86.7
...

Aqui está ANOVA bidirecional: summary(aov(Y ~ Xw1*id, d))

             Df Sum Sq Mean Sq F value   Pr(>F)    
Xw1           2  95274   47637  16.789 3.73e-07 ***
id           19  31359    1650   0.582    0.913    
Xw1:id       38  71151    1872   0.660    0.929    
Residuals   120 340490    2837                 

Aqui está o RM-ANOVA: summary(aov(Y ~ Xw1 + Error(id/Xw1), d))

Error: id
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 19  31359    1650               

Error: id:Xw1
          Df Sum Sq Mean Sq F value   Pr(>F)    
Xw1        2  95274   47637   25.44 9.73e-08 ***
Residuals 38  71151    1872                     

Error: Within
           Df Sum Sq Mean Sq F value Pr(>F)
Residuals 120 340490    2837            

Observe a decomposição SS idêntica, mas a ANOVA de duas vias testa Xw1contra o residual, enquanto a RM-ANOVA testa Xw1contra a Xw1:idinteração.

Por quê?

Esta questão está relacionada a Como escrever o termo de erro em medidas repetidas ANOVA em R: Erro (assunto) vs Erro (assunto / tempo) . Se tentarmos usar em Error(id)vez do Error(id/Xw1)exemplo acima, Xw1será testado contra a Xw1:idinteração agrupada com a variação residual.

(O mesmo problema ocorre na RM-ANOVA fatorial com vários fatores dentro do indivíduo, em que cada fator ou interação é testado em relação ao seu próprio "termo de erro", também conhecido como "estrato de erro". Esses estratos de erro são sempre dados pela interação correspondente com o bloco / plot / variável de assunto id.)


Segmento relevante: r.789695.n4.nabble.com/AOV-and-Error-td865845.html - mas não há resposta real lá.
Ameba

Ok, reli o artigo de @ JakeWestfall, jakewestfall.org/publications/JWK.pdf, e percebi que toda a questão se resume ao RM-ANOVA, tratando o subjectefeito (e todas as suas interações!) Como aleatório, enquanto a ANOVA bidirecional o trata como fixo. Eu tenho que pensar mais sobre isso para descobrir todos os detalhes.
Ameba

Para o ponto (2), a hipótese nula é exatamente o que torna a razão entre os quadrados médios esperados das duas somas de quadrados correspondentes iguais a um e o parâmetro de não centralidade correspondente a ambas as somas de quadrados iguais a 0. Isso é para que o valor da estatística é computável. Atualmente, não está claro para mim por que podemos alcançar todos esses três objetivos nos valores nulos que estamos acostumados a ver na ANOVA, mas parece que precisamos focar apenas na proporção do SGA quando os efeitos são aleatórios. e o parâmetro de não centralidade do SS do numerador quando o efeito (numerador) é fixo. FpF
user795305

Esses comentários estão relacionados ao teorema de cochran ( en.wikipedia.org/wiki/Cochran%27s_theorem ). (A propósito, o livro que eu uso como referência ANOVA chama isso de "Lema de Bhat".) #
User795305

Pergunta semelhante aqui, Noções básicas sobre o enredo dividido , mas também não há uma resposta fantástica
Aaron deixou o Stack Overflow

Respostas:


2

... ANOVA bidirecional testa o efeito de A comparando SS de A com o SS residual, enquanto RM-ANOVA testa o efeito de A comparando SS de A com a interação SS do objeto A.

1) Essa diferença decorre automaticamente da estrutura de medidas repetidas dos dados ou é alguma convenção?

Segue-se da estrutura de medidas repetidas dos dados. O princípio básico da análise de variância é que comparamos a variação entre os níveis de um tratamento com a variação entre as unidades que receberam esse tratamento. O que torna o caso de medidas repetidas um tanto complicado é estimar essa segunda variação.

Neste caso mais simples, o que interessa são as diferenças entre os níveis de A. Então, em quantas unidades medimos essa diferença? É o número de assuntos, não o número de observações. Ou seja, cada sujeito nos fornece uma informação independente adicional sobre a diferença, não cada observação. Adicionar medidas mais repetidas aumenta a precisão de nossas informações sobre cada assunto, mas não nos fornece mais assuntos.

O que o RM-Anova faz ao usar a interação A - sujeito como o termo de erro é usar corretamente a variação nas diferenças entre os níveis de A entre os sujeitos como a variação para testar o efeito do nível A. O uso do erro observacional usa a variação nas medidas repetidas em cada indivíduo, o que não está correto.

Considere um caso em que você coleta mais e mais dados de apenas algumas pessoas. Se você usar o erro no nível de observação, você alcançaria significância estatística, mesmo tendo apenas alguns indivíduos. Você precisa de mais indivíduos, não mais dados sobre eles, para realmente aumentar o poder.

2) Essa diferença entre ANOVA bidirecional e RM-ANOVA corresponde ao teste de dois nulos diferentes? Se sim, o que exatamente são e por que usaríamos nulos diferentes nesses dois casos?

Não, a mesma hipótese nula. O que é diferente é como estimamos a estatística do teste e sua distribuição nula.

3) O teste de ANOVA de duas vias pode ser entendido como um teste F entre dois modelos aninhados: o modelo completo e o modelo sem A. O RM-ANOVA pode ser entendido de maneira semelhante?

Sim, mas talvez não da maneira que você espera. Como você vê na saída de aov, uma maneira de pensar sobre esses tipos de modelos é que eles são realmente vários modelos em um, com um modelo para cada nível.

Pode-se ajustar os modelos para níveis mais altos individualmente, calculando a média dos dados sobre os níveis mais baixos. Ou seja, um teste RM-Anova para A é equivalente a um Anova padrão nos dados médios. Então, podemos comparar modelos da maneira usual.

> library(plyr)
> d2 <- ddply(d, ~Xw1 + id, summarize, Y=mean(Y))
> a1 <- aov(Y ~ id, d2)
> a2 <- aov(Y ~ Xw1+id, d2)
> anova(a1, a2)
Analysis of Variance Table

Model 1: Y ~ id
Model 2: Y ~ Xw1 + id
  Res.Df   RSS Df Sum of Sq      F    Pr(>F)    
1     40 55475                                  
2     38 23717  2     31758 25.442 9.734e-08 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como alternativa, é possível ajustar o máximo aovcom todos os dados, mas sem o termo de interesse, e comparar o ajuste com o total aovcom o termo de interesse, mas, para comparar os modelos, é necessário escolher o nível do modelo que você deseja. mudou (aqui o id:Xw1nível) e então você pode comparar esses dois modelos.

> summary(aov(Y ~ 1 + Error(id/Xw1), d))

Error: id
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 19  31359    1650               

Error: id:Xw1
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 40 166426    4161               

Error: Within
           Df Sum Sq Mean Sq F value Pr(>F)
Residuals 120 340490    2837               
> (F <- ((166426 - 71151)/2) / (71151/38))
[1] 25.44202
> pf(F, 2, 38, lower=FALSE)
[1] 9.732778e-08

(+1) Obrigado por reservar um tempo para escrever isso! Essa é uma perspectiva interessante que nos permite ter alguma intuição sobre por que é natural comparar com a soma dos quadrados da interação no caso de medidas repetidas. No entanto, parece falhar em elucidar os detalhes do teste, uma vez que você erroneamente (de acordo com os argumentos em minha resposta) afirma que as hipóteses nulas são as mesmas. O último parágrafo da minha resposta escreve como eu deduzi as hipóteses nulas. Por favor, deixe-me saber se você acha que estou enganado!
user795305

Acho que precisamos distinguir entre o que está sendo testado e o que é uma hipótese da hipótese nula (que é parte do que quero dizer quando digo que a distribuição nula é diferente). O σ ^ 2_ {id ∗ Xw1} = 0 que você possui não está sendo testado, você pode ter dados onde isso não é verdade, mas se X_ {w1j} for exatamente igual a 0 para todo j, você não rejeitará o nulo.
Aaron saiu de Stack Overflow

1
A questão é: o que você conclui quando rejeita o nulo? Em ambos os casos, você está concluindo que tem evidências de que os meios do grupo são diferentes. Você não conclui que os meios do grupo são diferentes OU a variação é grande. Ou seja, a hipótese nula em ambos os casos é simplesmente que todos os meios do grupo são iguais. O que muda é a estatística de teste que usamos para testar isso e a distribuição dessa estatística de teste.
Aaron saiu de Stack Overflow

1
Percebi que estou confuso com toda a sua linha de raciocínio. Uma hipótese nula não é derivada, é simplesmente declarada apriori e, em seguida, escolhe-se uma estatística de teste e determina sua distribuição sob a nula. Nos dois casos, a hipótese nula é simplesmente que todas as médias do grupo são iguais.
Aaron saiu de Stack Overflow

1
@Aaron No chat, a ameba apontou gentilmente que parece que eu não entendi sua resposta à pergunta 2. Eu o interpretei dizendo que, no caso de medidas repetidas, as hipóteses nulas correspondentes às estatísticas de teste com MSE em denom ou MS_inter no denomin são os mesmos. (De fato, meu último parágrafo que eu apontei para você está no cenário de medidas repetidas.) No entanto, agora parece que não era isso que você estava dizendo. Meu erro! ameba e eu excluímos nossos comentários para evitar que isso engane futuros leitores.
user795305

2

Esta nota depende dos resultados contidos nos modelos lineares de Moser: uma abordagem do modelo médio . Vou citar alguns resultados deste livro a seguir. Quando vi sua pergunta, comecei a examinar o livro: esta nota é exatamente como meus pensamentos foram organizados depois.

Seja a resposta, com contendo os efeitos fixos e contendo os efeitos aleatórios.yNn(μ,Σ)μΣ

Tome como a soma dos quadrados correspondentes a cada termo (covariáveis ​​e interações) no modelo. Observe que essas somas de quadrados são invariantes se os termos são fixos ou aleatórios. Suponha que cada seja simétrico e idempotente, o que será verdade na maioria dos modelos de interesse.yTAiyAi

Quando se afirma que que equivale à soma de quadrados correspondentes a uma decomposição em subespaços ortogonais, desde que assumimos que são projetores, e pelo teorema de Cochran (lema 3.4. 1), para e é independente de para .

I=iAi,
Ai
Σ=iciAi,
yTAiyciχdi2(μTAiμ/ci),
di=tr(Ai)yTAjyyTAkyjk

O termo é de fato uma estatística (central) se e somente se Quando essas três condições são satisfeitas, podemos calcular os valores de correspondentes à estatística . Esses termos basicamente auxiliam na computabilidade, pois os dependem dos componentes de variância e os parâmetros de não centralidade dependem da média . A segunda condição garante que

F~=yTAjy/djyTAky/dkcjχdj2(μTAjμ/cj)/djckχdk2(μTAkμ/ck)/dk
F
(1)cjck=1,(2)μTAjμ=0,(3)μTAkμ=0, and 
pF~ciμF~ terá (pelo menos) uma distribuição não central . Sob a segunda condição, a terceira condição indica que tem uma distribuição central .FF~F

Os quadrados médios esperados ( ) correspondentes à soma dos quadrados é onde devido à cor 3.1.2. A proporção se as condições , e forem mantidas. É por isso que as pessoas inspecionam a proporção deEMSithyTAiy

EMSi:=1tr(Ai)E[yTAiy]=tr(AiΣ)+μTAiμtr(Ai)=ci+μTAiμtr(Ai),
tr(AiΣ)=citr(Ai)
EMSjEMSk=cj+μTAjμtr(Aj)ck+μTAkμtr(Ak)=1
(1)(2)(3)EMSao determinar quais somas de quadrados dividir para formar uma estatística para testar uma hipótese nula específica.F

Usamos as condições e para especificar a hipótese nula. Na minha experiência, quando o termo (correspondente a ) que estamos interessados ​​em testar é aleatório, tornamos a hipótese nula e, quando é fixo, fazemos a hipótese nula ser . Em particular, isso significa que podemos escolher para que as demais condições e sejam satisfeitas. Essa escolha de nem sempre é possível, o que leva a dificuldades semelhantes a Behrens-Fisher .(1),(2)(3)jcj/ck=1yTAjy=0k(1),(2)(3)k

Isso não explica nada particularmente relacionado ao problema em questão, mas isso equivale apenas à computação e . Espero que isso seja visto como uma maneira útil de pensar sobre o problema. Observe que o exemplo 4.4.1 calcula quais são todas as quantidades acima no exemplo ANOVA bidirecional.μΣ

A diferença se deve à estrutura do problema e não à convenção. Essas abordagens diferentes (medida bidirecional versus medida repetida) alteram e , que altera o EMS, que altera qual escolhemos para construir o teste.μΣk


Vamos considerar o modelo que indica o nível de , etc. Aqui indica quais das 3 réplicas estão sendo consideradas.

yijk=μ0+idi+Xw1j+idXw1ij+R(idXw1)k(ij),
iidk

Agora, apresentamos algumas notações úteis: escreva . Como esses dados são equilibrados, podemos criar uma notação de produto kronecker . (Além disso, me disseram que Charlie Van Loan uma vez chamou o produto kronecker de "a operação dos anos 2000!") Defina para ser a matriz com todas as entradas iguais a e para ser a matriz centralizadora. (A matriz de centralização é assim chamada, pois, por exemplo, para um vetor .)y=(y111,y112,y113,y121,y20,3,3)J¯Rm×m1mC=IJ¯Cx22=i(xix¯)2x

Com esta notação do produto kronecker sob a faixa, podemos encontrar as matrizes mencionadas acima. A soma dos quadrados que corresponde a é onde o primeiro componente , o segundo está em e o terceiro em . De um modo geral, as matrizes nesses componentes sempre terão esse tamanho. Além disso, a soma dos quadrados devido a é Aiμ0

SS(μ0)=n(y¯)2=(J¯J¯J¯)y22=yT(J¯J¯J¯)y,
J¯R20×20R3×3R3×3id
SS(id)=ijk(y¯iy¯)2=(CJ¯J¯)y22=yT(CJ¯J¯)y.
Observe que o realmente mede a variação entre os níveis de . Da mesma forma, as outras matrizes são , e .SS(id)idAXw1=J¯CJ¯AidXw1=CCJ¯AR()=IIC

Isso mostra ser consistente com a aovexecução do código para fornecer, por exemplo, a soma residual dos quadrados :SS(R(idXw1))=yTAR()y

mY <- c()
for(j in 1:(nrow(d)/3)) {
  mY <- c(mY, rep(mean(d$Y[3*(j-1)+(1:3)]), 3))
}
sum((d$Y - mY)^2) #this is the residual sum of squares

Neste ponto, temos que fazer algumas escolhas de modelagem. Em particular, temos que decidir se é um efeito aleatório. Vamos supor primeiro que não seja um efeito aleatório, para que todos os efeitos além da replicação sejam corrigidos. Então e . Observe que não há dependência entre observações distintas. Em notação vetorial, podemos escrever para eid

E[yijk]=μij=μ0+idi+Xw1jk+idXw1ij
R(idXw1)k(ij)iidN(0,σ2)
yN(μ,Σ)
μ=E[y]=(μ11,μ12,,μ20,3)13Σ=σ2(III) .

Observando que a soma de todos os dos definidos acima é a identidade, sabemos pelo teorema de Cochran que, entre outras coisas, e e essas somas de quadrados são independentes.5A

SS(Xw1)=yTAXw1yσ2χ(19)(1)(1)2(μTAXw1μ/σ2)
SS(R(idXw1))=yTAR()yσ2χ(20)(3)(2)2(μTAR()μ/σ2)

Agora, de acordo com o que discutimos acima, queremos que as condições e sejam mantidas. Observe que a condição é válida (porque não há outros componentes de variação para complicar as coisas.) O que é realmente legal de notar agora é que , pois é constante ao longo deste terceiro "componente" que está sendo centralizado por . Isso significa que está atrás de nós. Portanto, só precisamos nos preocupar com a condição : se a assumirmos (como hipótese nula), assumiremos que , que é o mesmo que(1),(2),(3)(1)μTAR()μ=0μAR()(3)(2)0=μTAXw1μ=ijk(μijμ¯i)2μij=μ¯i para todos os , que é o mesmo que e para todos os (já que o nível médio está nos outros termos.)i,jXw1j=0idXw1ij=0i,j

Em resumo, a hipótese nula pode ser vista apenas testando se um parâmetro de não centralidade é zero, o que equivale a efeitos relativos à covariada sendo zero. O caso de medidas repetidas segue uma linha de raciocínio semelhante, na qual escolhemos modelar que o efeito é aleatório. Lá, a condição se tornará a hipótese nula.id(1)

Relacionado ao Rcomando, como você mencionou nos comentários da postagem original, este termo de erro apenas especifica quais termos devem ser considerados como efeitos aleatórios. (Observe que todos os termos que devem ser incluídos no modelo devem ser claramente inseridos ou inseridos dentro do Error()termo. É por isso que há uma diferença entre id/Xw1 = id + id:Xw1e idestar no Errortermo. Termos não incluídos são agrupados com o erro no sentido de que é rotulado como .)AR()+AidXw1AR()


Aqui estão os detalhes explícitos relacionados ao caso de medidas repetidas, em que os termos relacionados a (que são e ) são aleatórios. Veremos que esse é o caso mais interessante.idididXw1

Lá temos a mesma soma de matrizes de quadrados (uma vez que elas não dependem se um fator é fixo ou aleatório.) A matriz de covariância existe que

Σ=(a)σid2(IJJ)+σidXw12(ICJ)+σR()2(III)=σid2(3)(3)(Aμ0+Aid)+σidXw12(3)(AXw1+AidXw1)+σR()2(Aμ0+Aid+AXw1+AidXw1+AR())=((3)(3)σid2+σR()2)Aμ0+((3)(3)σid2+σR()2)Aid+((3)σidXw12+σR()2)AXw1+((3)σidXw12+σR()2)AidXw1+σR()2AR(),
Jé a matriz de todos. O primeiro e o último somatório no lado direito da igualdade (a) oferecem explicações intuitivas: o primeiro somatório mostra que há uma fonte adicional de correlação entre observações com o mesmo e o terceiro somatório, como no exemplo de mão dupla, a fonte básica de variação. Essa segunda soma é menos intuitiva, mas entre observações com o mesmo \ mathrm {id}, pode ser vista como variação crescente entre observações com o mesmo enquanto diminui a variação entre observações com diferentes , devido a a forma de .idXw1Xw1ICJ

Além disso, como todos os termos relacionados a são aleatórios, a média se deve a , de modo que ou .idXw1E[yijk]=μj=μ0+Xw1jμ=1(μ1,μ2,μ3)1

Observe que, relacionado à condição : temos enquanto Além disso, relacionado à condição ambos e . Também relacionado à condição : vemos que (1)

cXw1cidXw1=(3)σidXw12+σR()2(3)σidXw12+σR()2=1,
cXw1cR()=(3)σidXw12+σR()2σR()21.
(3)μTAXw1idμ=0μTAR()μ=0(2)
μTAXw1μ=AXw1μ22=(J¯CJ¯)(1(μ1,μ2μ3)1)22=(20)(3)C(μ1,μ2μ3)22=(20)(3)j(Xw1j)2.

Portanto, se a soma dos quadrados do denominador fosse o como antes, haveria ambas as condições e na hipótese nula - uma vez que essas são as duas condições que não estão satisfeitos sem suposições. No entanto, se usarmos a soma dos quadrados do denominador como interação, uma vez que a condição já está satisfeita, a hipótese nula seria apenas a condição . Então, como você mencionou na sua pergunta, esses denominadores diferentes equivalem apenas a diferentes hipóteses nulas. ( 1 ) ( 2 ) ( 1 ) ( 2 )R(idXw1)(1)(2)(1)(2)

Essa técnica de análise que usamos permite que a escolha de qual hipótese nula está sendo testada seja transparente. De fato, podemos ver isso escrevendo as condições mencionadas no parágrafo anterior mais explicitamente. Usando o denominador como a soma dos quadrados dos resíduos forças dos EUA para testar para todo e , enquanto estiver usando o denominador como a soma interação de quadrados nos permite simplesmente testar para todos .j σ 2 i d X w 1 = 0 X w 1 j = 0 jXw1j=0j σidXw12=0Xw1j=0j


+1. Uau, muito obrigado. Levarei algum tempo para digerir esta resposta. Não estou muito familiarizado com a teoria matemática do teste de hipóteses em modelos lineares, então isso é um pouco difícil de entender. Eu posso voltar para você com algumas perguntas nos dias seguintes. Eu esperava mais obter uma resposta no estilo do exemplo nas páginas 2-3 deste artigo , jakewestfall.org/publications/JWK.pdf , onde os quadrados médios esperados são calculados em várias situações fixas versus aleatórias e tudo segue de lá. Parece que você está falando sobre a mesma coisa, mas mais formal.
Ameba

Eu incluí um exemplo. (Eles podem levar muito tempo para escrever!) Acho que leva algum tempo para ficar confortável com as manipulações de produtos da kronecker, mas, depois disso, isso é mais fácil de entender. Além disso, continuo encontrando erros de digitação na resposta. Por favor, deixe-me saber se você acha que há algum!
user795305

1
Ufa, isso é muita matemática! A pergunta parece muito mais conceitual para mim, vou ver se consigo encontrar tempo para adicionar uma resposta em palavras.
Aaron saiu de Stack Overflow

1
@Aaron, como a ameba pediu uma resposta abrangente e sobre a extensão desse problema para outros cenários, achei que valeria a pena fornecer uma explicação completa dos testes na ANOVA. A resposta ficou notavelmente pesada apenas porque há muita computação envolvida ao fazê-lo de uma maneira totalmente generalizável. (Embora, para ser claro, o máximo de matemática envolvida seja avaliar a norma de um vetor projetado.) Eu ficaria muito interessado em ver uma resposta mais conceitual que explique completamente os meandros que introduzi (mais do que um pouco) a notação para explicar . Por favor, poste se você tiver tempo! F
user795305
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.