Eu tenho alguns dados que parecem traçar um gráfico de resíduos versus tempo quase normal, mas quero ter certeza. Como posso testar a normalidade dos resíduos de erro?
Eu tenho alguns dados que parecem traçar um gráfico de resíduos versus tempo quase normal, mas quero ter certeza. Como posso testar a normalidade dos resíduos de erro?
Respostas:
Nenhum teste indicará que seus resíduos são normalmente distribuídos. De fato, você pode apostar com segurança que eles não são .
Testes de hipóteses geralmente não são uma boa idéia como verificação de suas suposições. O efeito da falta de normalidade em sua inferência não é geralmente uma função do tamanho da amostra *, mas o resultado de um teste de significância é . Um pequeno desvio da normalidade será óbvio em um grande tamanho de amostra, mesmo que a resposta à questão do interesse real ("até que ponto isso tenha impactado minha inferência?") Possa ser "quase nada". Do mesmo modo, um grande desvio da normalidade em um pequeno tamanho de amostra pode não se aproximar da significância.
* (adicionado na edição) - na verdade, é uma declaração muito fraca. O impacto da não normalidade na verdade diminui com o tamanho da amostra praticamente sempre que o teorema de CLT e Slutsky se mantém, enquanto a capacidade de rejeitar a normalidade (e presumivelmente evitar procedimentos da teoria normal) aumenta com o tamanho da amostra ... então, apenas quando você é mais capaz de identificar a não normalidade quando isso não importa † de qualquer maneira ... e o teste não ajuda em nada quando realmente importa, em pequenas amostras.
bem, pelo menos até o nível de significância. A energia ainda pode ser um problema, se estivermos considerando amostras grandes como aqui, isso também pode ser um problema menor.
O que mais se aproxima da medição do tamanho do efeito é um diagnóstico (uma exibição ou uma estatística) que mede o grau de não normalidade de alguma maneira. Um gráfico QQ é uma exibição óbvia, e um gráfico QQ da mesma população em um tamanho de amostra e em um tamanho de amostra diferente são pelo menos as duas estimativas ruidosas da mesma curva - mostrando aproximadamente a mesma 'não normalidade'; deve, pelo menos aproximadamente, estar relacionado monotonicamente à resposta desejada para a questão de interesse.
Se você deve usar um teste, Shapiro-Wilk provavelmente é tão bom quanto qualquer outra coisa (o teste de Chen-Shapiro geralmente é um pouco melhor em alternativas de interesse comum, mas é mais difícil encontrar implementações de) - mas está respondendo a uma pergunta que você já sabe a resposta para; toda vez que você falha em rejeitar, está dando uma resposta que você pode ter certeza de que está errado.
O teste Shapiro-Wilk é uma possibilidade.
Este teste é implementado em quase todos os pacotes de software estatístico. A hipótese nula é que os resíduos são normalmente distribuídos, portanto, um pequeno valor p indica que você deve rejeitar o nulo e concluir que os resíduos não são normalmente distribuídos.
Observe que, se o tamanho da amostra for grande, você quase sempre rejeitará; portanto, a visualização dos resíduos é mais importante.
Da wikipedia:
Os testes de normalidade univariada incluem o teste do quadrado K de D'Agostino, o teste de Jarque-Bera, o teste de Anderson-Darling, o critério de Cramér-von Mises, o teste de normalidade de Lilliefors (em si uma adaptação do teste de Kolmogorov-Smirnov), o Teste de Shapiro-Wilk, teste de qui-quadrado de Pearson e teste de Shapiro-Francia. Um artigo de 2011 do The Journal of Statistical Modeling and Analytics [1] conclui que Shapiro-Wilk tem o melhor poder para um determinado significado, seguido de perto por Anderson-Darling ao comparar Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors e Anderson- Testes queridos.