Por que todos os testes de normalidade rejeitariam a hipótese nula?


12

O teste de Kolgomorov-Smirnov, o teste de Shapiro, etc ... todos rejeitam a hipótese de que uma distribuição é normal. No entanto, quando planto os quantis normais ee histograma, os dados são claramente normais. Talvez porque o poder dos testes seja alto?

O tamanho da amostra é de cerca de 650. Portanto, pelo menos um desses testes não deve rejeitar a hipótese nula?

Resultados:

           Kolmogorov-Smirnov    D          0.05031          Pr > D       <0.010
           Cramer-von Mises      W-Sq       0.30003          Pr > W-Sq    <0.005
           Anderson-Darling      A-Sq       1.66965          Pr > A-Sq    <0.005
           Chi-Square            Chi-Sq  3250.43596     18   Pr > Chi-Sq  <0.001

1
Bem vindo ao site. O poder pode realmente ser um problema. Você pode postar seus resultados para que possamos ser mais específicos?
StasK 06/10

1
É quase impossível avaliar a normalidade com muita precisão observando um histograma ou os quantis. Os três primeiros desses testes medem desvios em um gráfico de probabilidade (gráfico qq normal), então, como esse gráfico é linear?
whuber

Respostas:


13

O teste de normalidade é uma perda de tempo e seu exemplo ilustra o porquê. Com amostras pequenas, o teste de normalidade tem baixo poder; portanto, as decisões sobre quais modelos estatísticos devem ser baseados devem ser baseadas em conhecimento a priori . Nesses casos, a falha em rejeitar o nulo não prova que o nulo é aproximadamente verdadeiro no nível da população.

Quando você tem amostras grandes, os testes de normalidade se tornam ridiculamente poderosos, mas não dizem nada que você já não sabia. Nenhuma quantidade real é exatamente distribuída normalmente. A distribuição normal é apenas uma abstração matemática que é uma aproximação suficientemente boa em muitos casos. A prova mais simples disso é que não há quantidade real (pelo menos nenhuma que eu possa pensar) que possa ter qualquer número real como valor. Por exemplo, existem apenas tantas moléculas no universo. Há apenas tantos dólares no suprimento de dinheiro. A velocidade da luz é finita. Os computadores podem armazenar apenas números de tamanho finito; portanto, mesmo que algo tenha suporte para todos os números reais, você não poderá mensurá-lo.

O ponto é que você já sabia que seus dados não eram exatamente distribuídos normalmente, mas os testes de normalidade não dizem nada sobre como os dados não são normais. Eles não dão absolutamente nenhuma dica sobre se seus dados são distribuídos aproximadamente normalmente, de modo que os métodos de inferência estatística que assumem a normalidade dariam respostas corretas. Ironicamente, testes comuns (por exemplo, o teste T e ANOVA) que assumem normalidade são mais robustos à não normalidade em amostras de grandes tamanhos.


Após a sua resposta, postei uma pergunta sobre o que constitui um bom índice de não normalidade: stats.stackexchange.com/questions/16646/… Alguma opinião?
21411 Jeremy

Quanto a tudo no mundo ser quantificado: os dados discretos também não podem ser distribuídos normalmente?
Xmjx 7/10

Mais um comentário sobre o problema do computador: observe que o mecanismo geralmente usado para armazenar números decimais em computadores tem uma granularidade diferente para o intervalo de números pequenos e grandes. Portanto, a diferença mínima entre números que o computador pode armazenar é menor para números pequenos e maior para números grandes. Para um computador, 100000.1 e 100000.2 podem ser os mesmos, enquanto 0.1 e 0.2 não. (Apenas um exemplo - no mundo real não é tão ruim assim.)
xmjx

@xmjx: Os dados discretos podem ser distribuídos aproximadamente normalmente, o que significa que estão próximos o suficiente para quase qualquer finalidade prática. No entanto, em teoria, qualquer distribuição discreta falhará em alguns testes de normalidade se o tamanho da amostra for grande o suficiente. A distribuição normal é contínua e não há maneira de contornar isso.
dsimcha

@dsimcha Mas a distribuição normal é apenas uma função de densidade de probabilidade que pode prever o número de observações em um determinado compartimento da variável discreta. Então, eu entenderia se você dissesse "nenhuma variável real é exatamente normalmente distribuída e é por isso que os testes de normalidade falharão em algum momento". Mas para "dados discretos não podem ser normalmente distribuídos, pois não são contínuos", gostaria de alguma referência. Estou realmente interessado nesse tipo de coisa. Não querendo começar uma briga aqui.
Xmjx

4

Isso não me surpreende - com um tamanho de amostra grande o suficiente, qualquer bom teste deve rejeitar a hipótese nula, a menos que a distribuição de geração de dados seja realmente (e exatamente) normal.

Com o teste de hipóteses, geralmente se interessa em encontrar um teste "poderoso", que pode encontrar desvios muito pequenos da hipótese nula, com o mínimo de dados possível.

Tente executar o teste com uma subamostra de tamanho 20, 50, 100, 200 e veja em que tamanho os testes começam a ser rejeitados. É fácil ver se um histograma é simétrico e geralmente em forma de sino, mas as caudas da distribuição são mais difíceis de avaliar a olho. Talvez haja dados discrepantes nos dados que estão causando a rejeição dos testes? Se houver, veja o que acontece quando você os remove.


Obrigado pela resposta. O objetivo é testar se os resíduos são normais. Eu acho que olhar para um gráfico quantil normal e ver se ele está em y = x é a melhor aposta?
Robbie

@Robbie Se você está apenas interessado em descobrir se seus resíduos são normais, uma inspeção visual deve ser boa. O teste estatístico da distribuição não é realmente necessário para isso - como foi observado, ele perceberá qualquer desvio da normalidade, mesmo que não seja realmente importante.
Fomite 6/10/11

@EpiGrad Eu discordo. Os testes de normalidade têm notoriamente baixa potência. Veja minha resposta acima. Editar, por outro lado, a regressão é bastante robusta à não normalidade, então eu concordo que, se parecer normal, você provavelmente estará bem para esse fim.
David J. Harris

@ David J. Harris: "Notoriamente baixa potência"? Para tamanhos de amostra de 650? Isso é contrário a tudo que li ou experimentei. Você tem uma citação?
whuber

@ DavidJ.Harris Eu acho que, no núcleo, baixa potência ou significância espúria devido a uma grande amostra, todo o exercício é desnecessário para o exame de rotina da suposição de normalidade.
Fomite 6/10/11

3

A causa provável é que seus dados são levemente não normais e o tamanho da amostra é grande o suficiente para revelar isso.

Se a distribuição realmente for normal, ela deverá passar normalmente nesses testes, como no exemplo R a seguir, onde todos os testes, exceto um, são aprovados.

> require(nortest)
> 
> set.seed(1)
> dat <- rnorm(650,mean=100, sd=5)
> 
> ad.test(dat)

        Anderson-Darling normality test

data:  dat 
A = 0.439, p-value = 0.2924

> cvm.test(dat)

        Cramer-von Mises normality test

data:  dat 
W = 0.0882, p-value = 0.1619

> lillie.test(dat)

        Lilliefors (Kolmogorov-Smirnov) normality test

data:  dat 
D = 0.0334, p-value = 0.08196

> pearson.test(dat)

        Pearson chi-square normality test

data:  dat 
P = 37.96, p-value = 0.035

> sf.test(dat)

        Shapiro-Francia normality test

data:  dat 
W = 0.9978, p-value = 0.5186

> shapiro.test(dat)

        Shapiro-Wilk normality test

data:  dat 
W = 0.9981, p-value = 0.675

Você pode querer fazer um qqplot e, se estiver próximo o suficiente de uma linha reta, poderá decidir tratá-lo como estando próximo o suficiente da normalidade para seus propósitos. Depende bastante de quais são esses objetivos.


O objetivo é testar se os resíduos são normais na regressão linear.
Robbie

1
@Robbie. Aparentemente, eles não são, mas podem estar próximos o suficiente para que isso não importe muito. Experimente o qqplot.
Henry

O resultado do qui quadrado de Pearson parece que os dados não são normalmente distribuídos. Apenas dizendo. O que fazer com esse resultado?
Xmjx 7/10

@xmjx: Não muito - Se você aplicar um critério de 0,05, não ficará surpreso se receber um falso positivo 5% do tempo.
Henry

@ Henry eu sei. O que quero dizer: escolher qualquer teste de normalidade antecipadamente tem alguma probabilidade de escolher um que diga "significativo". Então, é melhor usar uma bateria e depois ... o que? Média? Ir com o voto da maioria?
Xmjx 8/10

2

Deixe-me discordar da resposta do dsimcha: "O teste de normalidade é uma perda de tempo e seu exemplo ilustra o porquê.". O teste de normalidade nunca é uma perda de tempo, você sempre pode aprender com seus dados. Além disso, existem algumas condições que você deve testar antes de realizar alguma análise (por exemplo, ANOVA, regressão etc.). É melhor testar tamanhos de amostra grandes e relativos com plotagem (QQplot, histograma). Nesses casos, a visualização fornece muito mais informações sobre comportamento multimodal e assim por diante.

A ANOVA e a regressão são robustas à não normalidade ao lidar com tamanhos grandes de amostras, mas o principal tipo de dados que causa problemas são as amostras de dados multimodais.

Com amostras pequenas, o teste Kolgomorov-Smirnov é a melhor opção, principalmente devido à sua sensibilidade.


1

Discordo um pouco das outras respostas postadas até agora: esses testes de normalidade têm notoriamente pouco poder, mesmo com amostras relativamente grandes, pelo menos para certos tipos de desvios.

Aqui está um exemplo rápido. Eu criei uma mistura de duas normais cujos meios são separados por um sd inteiro.

set.seed(1)
reps = replicate(
  10000, 
  shapiro.test(c(rnorm(325, mean = 0), rnorm(325, mean = 1)))$p.value
)
mean(reps < .05)
[1] 0.0525

Considerando que ele "detectaria" desvios da normalidade em 5% das vezes, mesmo que fosse realmente normal, isso não é muito impressionante.

Aqui está outro exemplo: eu adiciono ruído uniforme em uma faixa do tamanho de dois desvios padrão. Este é visivelmente não normal.

set.seed(1)
reps = replicate(
  10000, 
  shapiro.test(rnorm(650) + 2 * runif(650))$p.value
)
mean(reps < .05)
[1] 0.0523

Novamente, energia extremamente baixa para uma grande partida da normalidade.

Tem certeza de que está lendo o qqplot corretamente? Você poderia enviá-lo para que pudéssemos vê-lo?

Editar, por outro lado, a regressão é bastante robusta à não normalidade, então eu concordo que a inspeção visual provavelmente será suficiente para a maioria dos propósitos.


3
Eu acho que você pode estar confundindo o tamanho aparente de um "desvio", como está escrito em uma fórmula, com o desvio real entre duas distribuições. Nos dois casos, o resultado é notavelmente próximo ao normal. No caso 1, é difícil distinguir o PDF visualmente de um PDF normal; todos os seus momentos estranhos são (obviamente) ; sua curtose é , um pouquinho menor que a de um normal normal ( ), etc. O fato de o teste de Shapiro-Wilks ter qualquer poder para identificar essa mistura como não-normal com uma pseudo amostra de 625 é notável. O segundo caso é semelhante. 73 / 25 75 / 25073/2575/25
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.