ANOVA de medidas repetidas: qual é a suposição de normalidade?

Estou confuso sobre a suposição de normalidade em medidas repetidas ANOVA. Especificamente, estou me perguntando que tipo de normalidade exatamente deve ser satisfeita. Ao ler a literatura e as respostas no currículo, encontrei três formulações distintas dessa suposição.

A variável dependente dentro de cada condição (repetida) deve ser distribuída normalmente.

Afirma-se frequentemente que o rANOVA possui as mesmas suposições que a ANOVA, mais a esfericidade. Essa é a alegação de de Campo estatísticas Descoberta , bem como na da Wikipedia artigo sobre o assunto e texto de Lowry .
Os resíduos (diferenças entre todos os pares possíveis?) Devem ser distribuídos normalmente.

Eu encontrei essa afirmação em várias respostas no CV ( 1 , 2 ). Por analogia do rANOVA ao teste t emparelhado , isso também pode parecer intuitivo.
A normalidade multivariada deve ser satisfeita.

A Wikipedia e essa fonte mencionam isso. Além disso, eu sei que o rANOVA pode ser trocado por MANOVA, o que pode merecer essa afirmação.

São equivalentes de alguma forma? Eu sei que normalidade multivariada significa que qualquer combinação linear dos DVs é normalmente distribuída; portanto, 3. incluiria naturalmente 2. se eu entendi o último corretamente.

Se estes não são os mesmos, qual é a suposição "verdadeira" do rANOVA? Você pode fornecer uma referência?

Parece-me que há mais suporte para a primeira reivindicação. Isso não está alinhado, no entanto, com as respostas geralmente fornecidas aqui.

Modelos mistos lineares

Devido à dica de @ utobi, agora entendo como o rANOVA pode ser reapresentado como um modelo misto linear. Especificamente, para modelar como alterações na pressão arterial com o tempo, eu modelar o valor esperado como: onde são medições de pressão sanguínea, o sangue médio pressão do sujeito -ésima, e como o tempo -ésimo o sujeito -ésimo foi medido,

E [y_{i j}] = a_{i} + b_{i} t_{i j},

$\mathrm{E}\left[y_{ij}\right]=a_{i}+b_i t_{ij},$

y_{i j}

$y_{ij}$

a_{i}

$a_{i}$

i

$i$

t_{i j}

$t_{ij}$

j

$j$

i

$i$

b_{i}

$b_i$ denotando que a mudança na pressão arterial também é diferente entre os sujeitos. Ambos os efeitos são considerados aleatórios, uma vez que a amostra de sujeitos é apenas um subconjunto aleatório da população, o que é de interesse primário.

Finalmente, tentei pensar no que isso significa para a normalidade, mas com pouco sucesso. Parafraseando McCulloch e Searle (2001, p. 35. Eq. (2.14)):

\begin{aligned} E [y_{i j} | a_{i}] & = a_{i} \\ y_{i j} | a_{i} & \sim i n d e p . N (a_{i}, σ^{2}) \\ a_{i} & \sim i . i . d . N (a, σ_{a}^{2}) \end{aligned}

$\begin{align} \mathrm{E}\left[y_{ij}|a_i\right] &= a_i \\[5pt] y_{ij}|a_i &\sim \mathrm{indep.}\ \mathcal{N}(a_i,\sigma^2) \\[5pt] a_i &\sim \mathrm{i.i.d.}\ \mathcal{N}(a,\sigma_a^2) \end{align}$

Eu entendo que isso significa que

4. os dados de cada indivíduo precisam ser normalmente distribuídos, mas isso não é razoável para testar com poucos pontos no tempo.

Entendo a terceira expressão para dizer que

5. as médias de assuntos individuais são normalmente distribuídas. Observe que essas são outras duas possibilidades distintas além das três mencionadas acima.

McCulloch, CE e Searle, SR (2001). Modelos generalizados, lineares e mistos . Nova York: John Wiley & Sons, Inc.

— Fato39
fonte

só para lhe dar uma pista. Você pode indicar o modelo rANOVA em termos de um modelo misto linear (LMM). Depois de ter um LMM, você vê imediatamente a suposição implícita de normalidade. Veja aqui ( eu.wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html ) algumas teorias de LMMs

— utobi

Obrigado, @utobi, pela referência que você forneceu! Na verdade, estudei seus primeiros capítulos, mas não consegui descobrir a resposta para minha pergunta. Eu o atualizei para refletir o progresso limitado que fiz.

— Fato39

Esta parece ser uma pergunta perfeitamente boa para mim. Estou votando para deixar em aberto.

— gung - Restabelece Monica

É verdade que os dados de cada indivíduo precisam ser normalmente distribuídos. Porém, se você observar o que escreveu, todos os dados individuais, uma vez que sejam modificados (

é subtraído), terão uma média de zero e a mesma variação (

). Portanto, você pode assumir que todos os dados modificados surgem de uma única distribuição normal. Você pode ver os resíduos para ver como essa suposição é atendida.

a_{i}

$a_i$

σ_{a}^{2}

$\sigma_a^2$

— Heteroskedastic Jim

Respostas:

Este é o modelo ANOVA de medidas repetidas mais simples se o tratarmos como um modelo univariado:

y_{i t} = a_{i} + b_{t} + ϵ_{i t}

$y_{it} = a_{i} + b_{t} + \epsilon_{it}$

$i$ $t$ $y_{it}$ $a_{i}$ $b_{t}$ $\epsilon_{it}$

Não precisamos fazer suposições distributivas sobre , pois elas podem entrar no modelo como efeitos fixos, variáveis simuladas (ao contrário do que fazemos com modelos lineares mistos). O mesmo acontece com os bonecos do tempo. Para esse modelo, você simplesmente regride o resultado de forma longa em relação aos manequins da pessoa e aos manequins de tempo. O efeito do interesse são os manequins do tempo, o teste que testa a hipótese nula de que é o principal teste na ANOVA de medidas repetidas univariada. $a_{i}$ $F$ $b_{1}=...=b_{t}=0$

Quais são as premissas necessárias para o teste se comportar adequadamente? O relevante para sua pergunta é: $F$

ϵ_{i t} \sim N (0, σ) these errors are normally distributed and homoskedastic

$\begin{equation} \epsilon_{it}\sim\mathcal{N}(0,\sigma)\quad\text{these errors are normally distributed and homoskedastic} \end{equation}$

$F$

Se você deseja tratar as medidas repetidas ANOVA como um modelo multivariado, as suposições de normalidade podem ser diferentes e não posso expandi-las além do que você e eu vimos na Wikipedia.

— Jim Heteroskedastic
fonte

A explicação da normalidade da ANOVA de medidas repetidas pode ser encontrada aqui:

Entendendo as premissas ANOVA de medidas repetidas para interpretação correta da saída do SPSS

Você precisa da normalidade das variáveis dependentes nos resíduos (isso implica uma distribuição normal em todos os grupos, com variação comum e média dependente do grupo), como na regressão.
Como você notou, a normalidade multivariada implica que todas as combinações lineares das variáveis dependentes são normalmente distribuídas, portanto é um conceito mais forte do que a normalidade de variáveis únicas ( $3 \rightarrow 1$ ) No entanto, não estou convencido de que isso implique normalidade de resíduos ( $3 \rightarrow 2$ ), dados os resíduos são determinados por variáveis independentes (grupos, na ANOVA) também. Eu concordo com você para o ponto $5$ : você está basicamente falando sobre um efeito aleatório em nível individual com uma distribuição normal.

— Federico Tedeschi
fonte

Federico, obrigado pela sua resposta. Eu estava ciente dessa explicação (veja meu ponto número 2 e o primeiro link do CV mencionado lá). Embora aprecie a qualidade das respostas no currículo, cheguei a respostas diferentes (conflitantes?) Para minha pergunta ao consultar fontes diferentes. Portanto, eu preferiria uma fonte que abordasse explícita ou conclusivamente as nuances que mencionei nos meus cinco pontos acima.

— Fato39