Esse problema parece elevar sua cabeça feia o tempo todo, e estou tentando decapitá-lo para meu próprio entendimento de estatística (e sanidade!).
As suposições dos modelos lineares gerais (teste t, ANOVA, regressão etc.) incluem a "suposição de normalidade", mas descobri que isso raramente é descrito claramente.
Muitas vezes encontro livros / manuais de estatística / etc. simplesmente afirmando que a "suposição de normalidade" se aplica a cada grupo (isto é, variáveis categóricas X), e devemos examinar as divergências da normalidade para cada grupo .
Perguntas :
a suposição se refere aos valores de Y ou aos resíduos de Y?
para um grupo específico , é possível ter uma distribuição fortemente não normal dos valores de Y (por exemplo, distorcida) MAS uma distribuição aproximadamente (ou pelo menos mais normal) dos resíduos de Y?
Outras fontes descrevem que a suposição se refere aos resíduos do modelo (nos casos em que existem grupos, por exemplo, testes t / ANOVA), e devemos examinar as diferenças de normalidade desses resíduos (ou seja, apenas um gráfico / teste de QQ para corre).
normalidade de resíduos para o modelo implica normalidade de resíduos para os grupos ? Em outras palavras, devemos apenas examinar os resíduos do modelo (ao contrário das instruções em muitos textos)?
Para colocar isso em um contexto, considere este exemplo hipotético:
- Quero comparar a altura da árvore (Y) entre duas populações (X).
- Em uma população, a distribuição de Y é fortemente inclinada para a direita (ou seja, a maioria das árvores é baixa, muito pequena), enquanto a outra é virtualmente normal
- A altura é geralmente mais alta na população normalmente distribuída (sugerindo que pode haver uma diferença "real").
- A transformação dos dados não melhora substancialmente a distribuição da primeira população.
Em primeiro lugar, é válido comparar os grupos considerando as distribuições de altura radicalmente diferentes?
Como abordar a "suposição de normalidade" aqui? A altura de recordação em uma população normalmente não é distribuída. Examino resíduos para ambas as populações separadamente OU resíduos para o modelo (teste t)?
Consulte as perguntas por número nas respostas. A experiência me mostrou que as pessoas se perdem ou se desviam facilmente (especialmente eu!). Tenha em mente que eu não sou um estatístico; embora eu tenha uma compreensão razoavelmente conceitual (isto é, não técnica!) das estatísticas.
PS, procurei nos arquivos e li os seguintes tópicos que não consolidaram meu entendimento:
- ANOVA suposição normalidade / distribuição normal de resíduos
- Normalidade de resíduos versus dados da amostra; e quanto aos testes t?
- O teste de normalidade é 'essencialmente inútil'?
- Testando a normalidade
- Avaliando a normalidade da distribuição
- Quais testes eu uso para confirmar que os resíduos são normalmente distribuídos?
- O que fazer quando o teste de Kolmogorov-Smirnov é significativo para os resíduos do teste paramétrico, mas a assimetria e a curtose parecem normais?