Esta nota depende dos resultados contidos nos modelos lineares de Moser: uma abordagem do modelo médio . Vou citar alguns resultados deste livro a seguir. Quando vi sua pergunta, comecei a examinar o livro: esta nota é exatamente como meus pensamentos foram organizados depois.
Seja a resposta, com contendo os efeitos fixos e contendo os efeitos aleatórios.y∼Nn(μ,Σ)μΣ
Tome como a soma dos quadrados correspondentes a cada termo (covariáveis e interações) no modelo. Observe que essas somas de quadrados são invariantes se os termos são fixos ou aleatórios. Suponha que cada seja simétrico e idempotente, o que será verdade na maioria dos modelos de interesse.yTAiyAi
Quando se afirma que que equivale à soma de quadrados correspondentes a uma decomposição em subespaços ortogonais, desde que assumimos que são projetores, e pelo teorema de Cochran (lema 3.4. 1),
para e é independente de para .
I=∑iAi,
AiΣ=∑iciAi,
yTAiy∼ciχ2di(μTAiμ/ci),
di=tr(Ai)yTAjyyTAkyj≠k
O termo é de fato uma estatística (central) se e somente se
Quando essas três condições são satisfeitas, podemos calcular os valores de correspondentes à estatística . Esses termos basicamente auxiliam na computabilidade, pois os dependem dos componentes de variância e os parâmetros de não centralidade dependem da média . A segunda condição garante que
F~=yTAjy/djyTAky/dk∼cjχ2dj(μTAjμ/cj)/djckχ2dk(μTAkμ/ck)/dk
FcjckμTAjμμTAkμ=1,=0,=0, and (1)(2)(3)
pF~ciμF~ terá (pelo menos) uma distribuição não central . Sob a segunda condição, a terceira condição indica que tem uma distribuição central .
FF~F
Os quadrados médios esperados ( ) correspondentes à soma dos quadrados é onde devido à cor 3.1.2. A proporção se as condições , e forem mantidas. É por isso que as pessoas inspecionam a proporção deEMSithyTAiy
EMSi:=1tr(Ai)E[yTAiy]=tr(AiΣ)+μTAiμtr(Ai)=ci+μTAiμtr(Ai),
tr(AiΣ)=citr(Ai)EMSjEMSk=cj+μTAjμtr(Aj)ck+μTAkμtr(Ak)=1
(1)(2)(3)EMSao determinar quais somas de quadrados dividir para formar uma estatística para testar uma hipótese nula específica.
F
Usamos as condições e para especificar a hipótese nula. Na minha experiência, quando o termo (correspondente a ) que estamos interessados em testar é aleatório, tornamos a hipótese nula e, quando é fixo, fazemos a hipótese nula ser . Em particular, isso significa que podemos escolher para que as demais condições e sejam satisfeitas. Essa escolha de nem sempre é possível, o que leva a dificuldades semelhantes a Behrens-Fisher .(1),(2)(3)jcj/ck=1yTAjy=0k(1),(2)(3)k
Isso não explica nada particularmente relacionado ao problema em questão, mas isso equivale apenas à computação e . Espero que isso seja visto como uma maneira útil de pensar sobre o problema. Observe que o exemplo 4.4.1 calcula quais são todas as quantidades acima no exemplo ANOVA bidirecional.μΣ
A diferença se deve à estrutura do problema e não à convenção. Essas abordagens diferentes (medida bidirecional versus medida repetida) alteram e , que altera o EMS, que altera qual escolhemos para construir o teste.μΣk
Vamos considerar o modelo
que indica o nível de , etc. Aqui indica quais das 3 réplicas estão sendo consideradas.
yijk=μ0+idi+Xw1j+id∗Xw1ij+R(id∗Xw1)k(ij),
iidk
Agora, apresentamos algumas notações úteis: escreva . Como esses dados são equilibrados, podemos criar uma notação de produto kronecker . (Além disso, me disseram que Charlie Van Loan uma vez chamou o produto kronecker de "a operação dos anos 2000!") Defina para ser a matriz com todas as entradas iguais a e para ser a matriz centralizadora. (A matriz de centralização é assim chamada, pois, por exemplo, para um vetor .)y=(y111,y112,y113,y121,…y20,3,3)J¯∈Rm×m1mC=I−J¯∥Cx∥22=∑i(xi−x¯)2x
Com esta notação do produto kronecker sob a faixa, podemos encontrar as matrizes mencionadas acima. A soma dos quadrados que corresponde a é
onde o primeiro componente , o segundo está em e o terceiro em . De um modo geral, as matrizes nesses componentes sempre terão esse tamanho. Além disso, a soma dos quadrados devido a é
Aiμ0
SS(μ0)=n(y¯⋅⋅⋅)2=∥(J¯⊗J¯⊗J¯)y∥22=yT(J¯⊗J¯⊗J¯)y,
J¯∈R20×20R3×3R3×3idSS(id)=∑ijk(y¯i⋅⋅−y¯⋅⋅⋅)2=∥(C⊗J¯⊗J¯)y∥22=yT(C⊗J¯⊗J¯)y.
Observe que o realmente mede a variação entre os níveis de . Da mesma forma, as outras matrizes são , e .
SS(id)idAXw1=J¯⊗C⊗J¯Aid∗Xw1=C⊗C⊗J¯AR()=I⊗I⊗C
Isso mostra ser consistente com a aov
execução do código para fornecer, por exemplo, a soma residual dos quadrados :SS(R(id∗Xw1))=yTAR()y
mY <- c()
for(j in 1:(nrow(d)/3)) {
mY <- c(mY, rep(mean(d$Y[3*(j-1)+(1:3)]), 3))
}
sum((d$Y - mY)^2) #this is the residual sum of squares
Neste ponto, temos que fazer algumas escolhas de modelagem. Em particular, temos que decidir se é um efeito aleatório. Vamos supor primeiro que não seja um efeito aleatório, para que todos os efeitos além da replicação sejam corrigidos. Então
e . Observe que não há dependência entre observações distintas. Em notação vetorial, podemos escrever para eid
E[yijk]=μij=μ0+idi+Xw1jk+id∗Xw1ij
R(id∗Xw1)k(ij)∼iidN(0,σ2)y∼N(μ,Σ)
μ=E[y]=(μ11,μ12,…,μ20,3)⊗13Σ=σ2(I⊗I⊗I) .
Observando que a soma de todos os dos definidos acima é a identidade, sabemos pelo teorema de Cochran que, entre outras coisas, e e essas somas de quadrados são independentes.5A
SS(Xw1)=yTAXw1y∼σ2χ2(19)(1)(1)(μTAXw1μ/σ2)
SS(R(id∗Xw1))=yTAR()y∼σ2χ2(20)(3)(2)(μTAR()μ/σ2)
Agora, de acordo com o que discutimos acima, queremos que as condições e sejam mantidas. Observe que a condição é válida (porque não há outros componentes de variação para complicar as coisas.) O que é realmente legal de notar agora é que , pois é constante ao longo deste terceiro "componente" que está sendo centralizado por . Isso significa que está atrás de nós. Portanto, só precisamos nos preocupar com a condição : se a assumirmos (como hipótese nula), assumiremos que , que é o mesmo que(1),(2),(3)(1)μTAR()μ=0μAR()(3)(2)0=μTAXw1μ=∑ijk(μij−μ¯i⋅)2μij=μ¯i⋅ para todos os , que é o mesmo que e para todos os (já que o nível médio está nos outros termos.)i,jXw1j=0id∗Xw1ij=0i,j
Em resumo, a hipótese nula pode ser vista apenas testando se um parâmetro de não centralidade é zero, o que equivale a efeitos relativos à covariada sendo zero. O caso de medidas repetidas segue uma linha de raciocínio semelhante, na qual escolhemos modelar que o efeito é aleatório. Lá, a condição se tornará a hipótese nula.id(1)
Relacionado ao R
comando, como você mencionou nos comentários da postagem original, este termo de erro apenas especifica quais termos devem ser considerados como efeitos aleatórios. (Observe que todos os termos que devem ser incluídos no modelo devem ser claramente inseridos ou inseridos dentro do Error()
termo. É por isso que há uma diferença entre id/Xw1 = id + id:Xw1
e id
estar no Error
termo. Termos não incluídos são agrupados com o erro no sentido de que é rotulado como .)AR()+Aid∗Xw1AR()
Aqui estão os detalhes explícitos relacionados ao caso de medidas repetidas, em que os termos relacionados a (que são e ) são aleatórios. Veremos que esse é o caso mais interessante.ididid∗Xw1
Lá temos a mesma soma de matrizes de quadrados (uma vez que elas não dependem se um fator é fixo ou aleatório.) A matriz de covariância existe
que
Σ=(a)σ2id(I⊗J⊗J)+σ2id∗Xw1(I⊗C⊗J)+σ2R()(I⊗I⊗I)=σ2id(3)(3)(Aμ0+Aid)+σ2id∗Xw1(3)(AXw1+Aid∗Xw1)+σ2R()(Aμ0+Aid+AXw1+Aid∗Xw1+AR())=((3)(3)σ2id+σ2R())Aμ0+((3)(3)σ2id+σ2R())Aid+((3)σ2id∗Xw1+σ2R())AXw1+((3)σ2id∗Xw1+σ2R())Aid∗Xw1+σ2R()AR(),
Jé a matriz de todos. O primeiro e o último somatório no lado direito da igualdade (a) oferecem explicações intuitivas: o primeiro somatório mostra que há uma fonte adicional de correlação entre observações com o mesmo e o terceiro somatório, como no exemplo de mão dupla, a fonte básica de variação. Essa segunda soma é menos intuitiva, mas entre observações com o mesmo \ mathrm {id}, pode ser vista como variação crescente entre observações com o mesmo enquanto diminui a variação entre observações com diferentes , devido a a forma de .
idXw1Xw1I⊗C⊗J
Além disso, como todos os termos relacionados a são aleatórios, a média se deve a , de modo que ou .idXw1E[yijk]=μj=μ0+Xw1jμ=1⊗(μ1,μ2,μ3)⊗1
Observe que, relacionado à condição : temos enquanto Além disso, relacionado à condição ambos e . Também relacionado à condição : vemos que
(1)
cXw1cid∗Xw1=(3)σ2id∗Xw1+σ2R()(3)σ2id∗Xw1+σ2R()=1,
cXw1cR()=(3)σ2id∗Xw1+σ2R()σ2R()≠1.
(3)μTAXw1∗idμ=0μTAR()μ=0(2)μTAXw1μ=∥AXw1μ∥22=∥(J¯⊗C⊗J¯)(1⊗(μ1,μ2μ3)′⊗1)∥22=(20)(3)∥C(μ1,μ2μ3)′∥22=(20)(3)∑j(Xw1j)2.
Portanto, se a soma dos quadrados do denominador fosse o como antes, haveria ambas as condições e na hipótese nula - uma vez que essas são as duas condições que não estão satisfeitos sem suposições. No entanto, se usarmos a soma dos quadrados do denominador como interação, uma vez que a condição já está satisfeita, a hipótese nula seria apenas a condição . Então, como você mencionou na sua pergunta, esses denominadores diferentes equivalem apenas a diferentes hipóteses nulas. ( 1 ) ( 2 ) ( 1 ) ( 2 )R(id∗Xw1)(1)(2)(1)(2)
Essa técnica de análise que usamos permite que a escolha de qual hipótese nula está sendo testada seja transparente. De fato, podemos ver isso escrevendo as condições mencionadas no parágrafo anterior mais explicitamente. Usando o denominador como a soma dos quadrados dos resíduos forças dos EUA para testar para todo e , enquanto estiver usando o denominador como a soma interação de quadrados nos permite simplesmente testar para todos .j σ 2 i d ∗ X w 1 = 0 X w 1 j = 0 jXw1j=0j σ2id∗Xw1=0Xw1j=0j