Até agora, tenho usado a estatística Shapiro-Wilk para testar suposições de normalidade em pequenas amostras.
Você poderia recomendar outra técnica?
Até agora, tenho usado a estatística Shapiro-Wilk para testar suposições de normalidade em pequenas amostras.
Você poderia recomendar outra técnica?
Respostas:
O pacote fBasics em R (parte do Rmetrics ) inclui vários testes de normalidade , cobrindo muitos dos testes freqüentistas populares - Kolmogorov-Smirnov, Shapiro-Wilk, Jarque – Bera e D'Agostino - junto com um invólucro para os testes de normalidade no pacote mais setentrional - Anderson-Darling, Cramer-von Mises, Lilliefors (Kolmogorov-Smirnov), qui-quadrado de Pearson e Shapiro-Francia. A documentação do pacote também fornece todas as referências importantes. Aqui está uma demonstração que mostra como usar os testes do nortest .
Uma abordagem, se você tiver tempo, é usar mais de um teste e verificar se há acordo. Os testes variam de várias maneiras, portanto, não é totalmente fácil escolher "o melhor". O que outros pesquisadores da sua área usam? Isso pode variar e pode ser melhor seguir os métodos aceitos para que outras pessoas aceitem seu trabalho. Eu freqüentemente uso o teste de Jarque-Bera, em parte por esse motivo, e Anderson-Darling para comparação.
Você pode consultar "Comparação de testes de normalidade univariada" (Seier 2002) e "Uma comparação de vários testes de normalidade" (Yazici; Yolacan 2007) para uma comparação e discussão dos problemas.
Também é trivial testar esses métodos para comparação em R, graças a todas as funções de distribuição . Aqui está um exemplo simples com dados simulados (não imprimirei os resultados para economizar espaço), embora uma exposição mais completa seja necessária:
library(fBasics); library(ggplot2)
set.seed(1)
# normal distribution
x1 <- rnorm(1e+06)
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)
# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)
Depois de obter os resultados dos vários testes em diferentes distribuições, você pode comparar quais foram os mais eficazes. Por exemplo, o valor de p para o teste de Jarque-Bera acima retornou 0,276 para a distribuição normal (aceitando) e <2,2e-16 para o cauchy (rejeitando a hipótese nula).
Por normalidade, o Shapiro-Wilk real tem um bom poder em amostras relativamente pequenas.
O principal concorrente nos estudos que eu vi é o Anderson-Darling, mais geral, que se sai muito bem, mas não diria que foi melhor. Se você puder esclarecer quais alternativas lhe interessam, possivelmente uma estatística melhor seria mais óbvia. [editar: se você estimar parâmetros, o teste do AD deve ser ajustado para isso.]
[Eu recomendo fortemente que não consideremos Jarque-Bera em amostras pequenas (que provavelmente são mais conhecidas como Bowman-Shenton nos círculos estatísticos - elas estudaram a distribuição de amostras pequenas). A distribuição conjunta assintótica de assimetria e curtose não se parece com a distribuição de pequenas amostras - da mesma forma que uma banana não se parece muito com uma laranja. Ele também possui potência muito baixa contra algumas alternativas interessantes - por exemplo, possui baixa potência para captar uma distribuição bimodal simétrica que possui curtose próxima à de uma distribuição normal.]
Freqüentemente, as pessoas testam a qualidade do ajuste por razões que não são particularmente boas, ou estão respondendo a uma pergunta diferente daquela que realmente desejam responder.
Por exemplo, você quase certamente já sabe que seus dados não são realmente normais (não exatamente), então não faz sentido tentar responder a uma pergunta para a qual você sabe a resposta - e o teste de hipótese não responde de qualquer maneira .
Como você sabe que ainda não possui a normalidade exata, seu teste de hipótese de normalidade está realmente lhe dando uma resposta para uma pergunta mais próxima de "é o tamanho da minha amostra grande o suficiente para captar a quantidade de não normalidade que eu tenho", enquanto a pergunta real em que você está interessado em responder geralmente está mais próxima de "qual é o impacto dessa não normalidade nessas outras coisas em que estou interessado?". O teste de hipótese está medindo o tamanho da amostra, enquanto a pergunta que você está interessado em responder não depende muito do tamanho da amostra.
Há momentos em que o teste de normalidade faz algum sentido, mas essas situações quase nunca ocorrem com amostras pequenas.
Por que você está testando a normalidade?
Há toda uma categoria da Wikipedia em testes de normalidade, incluindo:
Eu acho que o AD é provavelmente o melhor deles.
Por questões de integridade, os economistas também gostam do teste de Kiefer e Salmon de seu artigo de 1983 na revista Economics Letters - resume expressões "normalizadas" de assimetria e curtose, que são então distribuídas pelo qui-quadrado. Eu tenho uma versão antiga do C ++ que escrevi durante a pós-graduação que eu poderia traduzir para R.
Edit: E aqui está um artigo recente de Bierens (re) derivando Jarque-Bera e Kiefer-Salmon.
Edição 2: Examinei o código antigo e parece que realmente é o mesmo teste entre Jarque-Bera e Kiefer-Salmon.
De fato, o teste Kiefer Salmon e o teste Jarque Bera são criticamente diferentes, como mostrado em vários lugares, mas mais recentemente aqui - Testes de Momento para Distribuições Padronizadas de Erros: Uma Abordagem Robusta Simples por Yi-Ting Chen. O teste Kiefer Salmon por construção é robusto diante das estruturas de erro do tipo ARCH, ao contrário do teste padrão de Jarque Bera. O artigo de Yi-Ting Chen desenvolve e discute o que eu acho que provavelmente serão os melhores testes disponíveis no momento.
Para tamanhos de amostra <30 indivíduos, considera-se que Shapiro-Wilk possui um poder robusto - Cuidado ao ajustar o nível de significância do teste, pois isso pode induzir um erro do tipo II! [1]