Aprendi que devo testar a normalidade não nos dados brutos, mas em seus resíduos. Devo calcular os resíduos e depois fazer o teste W de Shapiro-Wilk?
Os resíduos são calculados como: ?
Consulte esta pergunta anterior para meus dados e o design.
Aprendi que devo testar a normalidade não nos dados brutos, mas em seus resíduos. Devo calcular os resíduos e depois fazer o teste W de Shapiro-Wilk?
Os resíduos são calculados como: ?
Consulte esta pergunta anterior para meus dados e o design.
Respostas:
Por que você deve testar a normalidade?
A suposição padrão na regressão linear é que os resíduos teóricos são independentes e normalmente distribuídos. Os resíduos observados são uma estimativa dos resíduos teóricos, mas não são independentes (existem transformações nos resíduos que removem parte da dependência, mas ainda fornecem apenas uma aproximação dos resíduos verdadeiros). Portanto, um teste com os resíduos observados não garante que os resíduos teóricos correspondam.
Se os resíduos teóricos não forem exatamente distribuídos normalmente, mas o tamanho da amostra for grande o suficiente, o Teorema do Limite Central diz que a inferência usual (testes e intervalos de confiança, mas não necessariamente intervalos de previsão) com base na suposição de normalidade ainda estará aproximadamente correta .
Observe também que os testes de normalidade são descartados; eles podem dizer que é improvável que os dados tenham vindo de uma distribuição normal. Mas se o teste não for significativo, o que não significa que os dados vieram de uma distribuição normal, também pode significar que você simplesmente não tem energia suficiente para ver a diferença. Tamanhos de amostra maiores fornecem mais poder para detectar a não normalidade, mas amostras maiores e o CLT significam que a não normalidade é menos importante. Portanto, para tamanhos de amostra pequenos, a suposição de normalidade é importante, mas os testes não têm sentido; para tamanhos de amostra grandes, os testes podem ser mais precisos, mas a questão da normalidade exata se torna sem sentido.
Portanto, combinando tudo isso, o que é mais importante do que um teste de normalidade exata é o entendimento da ciência por trás dos dados para ver se a população está próxima o suficiente da normalidade. Gráficos como qqplots podem ser bons diagnósticos, mas a compreensão da ciência também é necessária. Se houver preocupação de que haja muita assimetria ou potencial para valores discrepantes, estão disponíveis métodos não paramétricos que não exigem a suposição de normalidade.
As suposições gaussianas referem-se aos resíduos do modelo. Não há premissas necessárias sobre os dados originais. Como um exemplo em questão, a distribuição das vendas diárias de cerveja. Após um modelo razoável, capturar os efeitos do dia da semana, feriados / eventos, mudanças de nível / tendências de tempo que obtemos
Primeiro, você pode "observar" usando um gráfico QQ para obter um senso geral, aqui é como gerar um em R.
De acordo com o manual R, você pode alimentar seu vetor de dados diretamente na função shapiro.test ().
Se você deseja calcular os resíduos você mesmo, sim, cada resíduo é calculado dessa maneira ao longo do seu conjunto de observações. Você pode ver mais sobre isso aqui .