O teste de normalidade é 'essencialmente inútil'?

298

Um ex-colega uma vez me argumentou da seguinte maneira:

Geralmente aplicamos testes de normalidade aos resultados de processos que, sob o nulo, geram variáveis aleatórias que são apenas assintoticamente ou quase normais (com a parte 'assintoticamente' dependente de alguma quantidade que não podemos aumentar); Na era da memória barata, big data e processadores rápidos, os testes de normalidade devem sempre rejeitar o nulo da distribuição normal para amostras grandes (embora não insanamente grandes). E, assim, perversamente, os testes de normalidade devem ser usados apenas para amostras pequenas, quando presumivelmente eles têm menor potência e menos controle sobre a taxa do tipo I.

Esse argumento é válido? Esse é um argumento bem conhecido? Existem testes bem conhecidos para uma hipótese nula 'mais confusa' do que a normalidade?

hypothesis-testing normality-assumption philosophical

— Jeromy Anglim
fonte

23

Para referência: não acho que isso precise ser um wiki da comunidade.

— Shane

2

Eu não tinha certeza que havia uma 'resposta certa' ...

— shabbychef

5

Em certo sentido, isso vale para todos os testes de um número finito de parâmetros. Com fixo (o número de parâmetros nos quais o teste é realizado) e crescendo sem limites, qualquer diferença entre os dois grupos (não importa quão pequena) sempre quebrará o nulo em algum momento. Na verdade, esse é um argumento a favor dos testes bayesianos.

k

$k$

n

$n$

— user603

2

Para mim, não é um argumento válido. De qualquer forma, antes de dar qualquer resposta, você precisa formalizar um pouco as coisas. Você pode estar errado e pode não estar, mas agora o que você tem nada mais é do que uma intuição: para mim a frase "Na era da memória barata, big data e processadores rápidos, os testes de normalidade devem sempre rejeitar o nulo do normal" precisa de esclarecimentos :) Acho que, se você tentar dar uma precisão mais formal, a resposta será simples.

— robin girard

8

O tópico "Os conjuntos de dados grandes não são adequados para o teste de hipóteses" discute uma generalização dessa questão. ( stats.stackexchange.com/questions/2516/… )

— whuber

229

Não é uma discussão. É um fato (um pouco enfatizado) que os testes formais de normalidade sempre rejeitam os enormes tamanhos de amostra com os quais trabalhamos hoje. É fácil provar que, quando n cresce, até o menor desvio da normalidade perfeita leva a um resultado significativo. E como todo conjunto de dados tem algum grau de aleatoriedade, nenhum conjunto de dados será uma amostra perfeitamente distribuída normalmente. Mas nas estatísticas aplicadas, a questão não é se os dados / resíduos ... são perfeitamente normais, mas normais o suficiente para sustentar as suposições.

Deixe-me ilustrar com o teste de Shapiro-Wilk . O código abaixo constrói um conjunto de distribuições que se aproximam da normalidade, mas não são completamente normais. Em seguida, testamos shapiro.testse uma amostra dessas distribuições quase normais se desvia da normalidade. Em R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87

A última linha verifica qual fração das simulações para cada tamanho de amostra se desvia significativamente da normalidade. Assim, em 87% dos casos, uma amostra de 5000 observações desvia significativamente da normalidade, de acordo com Shapiro-Wilks. No entanto, se você ver os gráficos de qq, nunca decidiria um desvio da normalidade. Abaixo, você vê como exemplo os gráficos de qq para um conjunto de amostras aleatórias

texto alternativo

com valores de p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007

— Joris Meys
fonte

40

Em uma nota lateral, o teorema do limite central torna desnecessária a verificação formal da normalidade em muitos casos quando n é grande.

— Joris Meys

31

sim, a verdadeira questão não é se os dados são realmente distribuídos normalmente, mas são suficientemente normais para que a suposição subjacente de normalidade seja razoável para o objetivo prático da análise, e eu pensaria que o argumento baseado no CLT é normalmente [sic] suficiente para isso.

— Dikran Marsupial

53

Essa resposta parece não abordar a questão: apenas demonstra que o teste SW não atinge seu nível de confiança nominal e, portanto, identifica uma falha nesse teste (ou pelo menos na sua Rimplementação). Mas isso é tudo - não tem relação com o escopo de utilidade dos testes de normalidade em geral. A afirmação inicial de que os testes de normalidade sempre rejeitam em amostras grandes é simplesmente incorreta.

— whuber

19

@whuber Esta resposta aborda a questão. O ponto principal da questão é o "próximo" na "quase normalidade". SW testa qual é a chance de a amostra ser extraída de uma distribuição normal. Como as distribuições que eu construí deliberadamente não são normais, você esperaria que o teste SW fizesse o que promete: rejeite o nulo. O ponto principal é que essa rejeição não faz sentido em grandes amostras, pois o desvio da normalidade não resulta em perda de potência lá. Assim, o teste é correto, mas sem sentido, como mostram os QQplots

— Joris Meys

11

Eu confiei no que você escreveu e não entendeu o que você quis dizer com uma distribuição "quase normal". Agora vejo - mas apenas lendo o código e testando-o com cuidado - que você está simulando a partir de três distribuições normais padrão com médias em e e combinando os resultados na proporção . Você não esperaria que um bom teste de Normalidade rejeitasse o nulo neste caso? O que você demonstrou efetivamente é que os gráficos QQ não são muito bons para detectar essas misturas, só isso!

0,

$0,$

1,

$1,$

2

$2$

2 : 2 : 1

$2:2:1$

— whuber

172

Ao pensar se o teste de normalidade é "essencialmente inútil", é preciso primeiro pensar no que ele deve ser útil. Muitas pessoas (bem ... pelo menos, muitos cientistas) entendem mal a pergunta que o teste de normalidade responde.

A pergunta que os testes de normalidade respondem: Existe evidência convincente de algum desvio do ideal gaussiano? Com conjuntos de dados reais moderadamente grandes, a resposta é quase sempre sim.

A pergunta que os cientistas geralmente esperam que o teste de normalidade responda: os dados se desviam o suficiente do ideal gaussiano para "proibir" o uso de um teste que assume uma distribuição gaussiana? Os cientistas geralmente desejam que o teste de normalidade seja o árbitro que decide quando abandonar os testes convencionais (ANOVA etc.) e, em vez disso, analisa os dados transformados ou usa um teste não paramétrico baseado em classificação ou uma abordagem de reamostragem ou bootstrap. Para esse fim, os testes de normalidade não são muito úteis.

— Harvey Motulsky
fonte

16

+1 para obter uma resposta boa e informativa. Acho útil ver uma boa explicação para um mal-entendido comum (que, por acaso, tenho experimentado: stats.stackexchange.com/questions/7022/… ). O que sinto falta, porém, é uma solução alternativa para esse mal-entendido comum. Quero dizer, se os testes de normalidade estão no caminho errado, como verificar se uma aproximação normal é aceitável / justificada?

— 10382 posdef

6

Não há substituto para o senso (comum) do analista (ou, bem, do pesquisador / cientista). E experiência (aprendida ao tentar e ver: que conclusões eu tiro se presumo que é normal? Qual é a diferença, se não?). Os gráficos são seus melhores amigos.

— FairMiles

2

Gosto deste artigo, que sustenta o argumento: Micceri, T. (1989). O unicórnio, a curva normal e outras criaturas improváveis. Boletim Psicológico, 105 (1), 156-166.

— Jeremy Miles

4

Olhar para os gráficos é ótimo, mas e se houver muitos para examinar manualmente? Podemos formular procedimentos estatísticos razoáveis para apontar possíveis pontos problemáticos? Estou pensando em situações como experimentadores A / B em larga escala: exp-platform.com/Pages/… .

— dfrankow

118

Penso que os testes de normalidade podem ser úteis como companheiros de exames gráficos. Eles precisam ser usados da maneira certa, no entanto. Na minha opinião, isso significa que muitos testes populares, como os testes Shapiro-Wilk, Anderson-Darling e Jarque-Bera, nunca devem ser usados.

Antes de explicar meu ponto de vista, deixe-me fazer algumas observações:

Em um artigo recente interessante, Rochon et al. estudaram o impacto do teste Shapiro-Wilk no teste t de duas amostras. O procedimento de duas etapas para testar a normalidade antes de realizar, por exemplo, um teste t não apresenta problemas. Por outro lado, o procedimento de duas etapas também não é investigar graficamente a normalidade antes de realizar um teste t. A diferença é que o impacto deste último é muito mais difícil de investigar (pois exigiria que um estatístico investigasse graficamente a normalidade vezes mais ou menos ...). $100,000$
É útil quantificar a não normalidade , por exemplo, computando a assimetria da amostra, mesmo que você não queira executar um teste formal.
A normalidade multivariada pode ser difícil de avaliar graficamente e a convergência para distribuições assintóticas pode ser lenta para estatísticas multivariadas. Os testes de normalidade são, portanto, mais úteis em uma configuração multivariada.
Os testes de normalidade talvez sejam especialmente úteis para profissionais que usam estatísticas como um conjunto de métodos de caixa preta . Quando a normalidade é rejeitada, o profissional deve ficar alarmado e, em vez de executar um procedimento padrão baseado na suposição de normalidade, considere usar um procedimento não paramétrico, aplicar uma transformação ou consultar um estatístico mais experiente.
Como já foi apontado por outros, se for grande o suficiente, o CLT geralmente salva o dia. No entanto, o que é "grande o suficiente" difere para diferentes classes de distribuições. $n$

(Na minha definição), um teste de normalidade é direcionado contra uma classe de alternativas se for sensível a alternativas dessa classe, mas não sensível a alternativas de outras classes. Exemplos típicos são testes que são direcionados para alternativas inclinadas ou kurtóticas . Os exemplos mais simples usam a assimetria e curtose da amostra como estatísticas de teste.

Testes dirigidos de normalidade são, sem dúvida, preferíveis a testes omnibus (como os testes de Shapiro-Wilk e Jarque-Bera), uma vez que é comum que apenas alguns tipos de não normalidade sejam motivo de preocupação para um procedimento inferencial específico .

Vamos considerar o teste t de Student como um exemplo. Suponha que tenhamos uma amostra iid de uma distribuição com assimetria e (excesso) de curtoseSe é simétrico em relação à sua média, . Ambos e são 0 para a distribuição normal. $\gamma=\frac{E(X-\mu)^3}{\sigma^3}$ $\kappa=\frac{E(X-\mu)^4}{\sigma^4}-3.$ $X$ $\gamma=0$ $\gamma$ $\kappa$

Sob premissas de regularidade, obtemos a seguinte expansão assintótica para o cdf da estatística de teste : $T_n$

P (T_{n} \leq x) = Φ (x) + n^{- 1 / 2} \frac{1}{6} γ (2 x^{2} + 1) ϕ (x) - n^{- 1} x (\frac{1}{12} κ (x^{2} - 3) - \frac{1}{18} γ^{2} (x^{4} + 2 x^{2} - 3) - \frac{1}{4} (x^{2} + 3)) ϕ (x) + o (n^{- 1}),

$P(T_n\leq x)=\Phi(x)+n^{-1/2}\frac{1}{6}\gamma(2x^2+1)\phi(x)-n^{-1}x\Big(\frac{1}{12}\kappa (x^2-3)-\frac{1}{18}\gamma^2(x^4+2x^2-3)-\frac{1}{4}(x^2+3)\Big)\phi(x)+o(n^{-1}),$

onde é o cdf e é o pdf da distribuição normal padrão. $\Phi(\cdot)$ $\phi(\cdot)$

$\gamma$ aparece pela primeira vez no termo , enquanto aparece no termo . O desempenho assintótico de é muito mais sensível a desvios da normalidade na forma de assimetria do que na forma de curtose. $n^{-1/2}$ $\kappa$ $n^{-1}$ $T_n$

Pode-se verificar usando simulações que isso também é verdade para pequenos . Portanto, o teste t de Student é sensível à assimetria, mas relativamente robusto contra caudas pesadas, e é razoável usar um teste de normalidade direcionado para alternativas de inclinação antes de aplicar o teste t . $n$

Como regra geral ( não uma lei da natureza), a inferência sobre meios é sensível à assimetria e a inferência sobre variações é sensível à curtose.

O uso de um teste direcionado para a normalidade tem o benefício de obter maior poder contra alternativas '' perigosas '' e menor poder contra alternativas menos '' perigosas '', o que significa que somos menos propensos a rejeitar a normalidade por causa de desvios da normalidade vencidos afeta o desempenho do nosso procedimento inferencial. A não normalidade é quantificada de maneira relevante para o problema em questão. Nem sempre é fácil fazer isso graficamente.

À medida que aumenta, a assimetria e a curtose se tornam menos importantes - e é provável que testes diretos detectem se essas quantidades divergem de 0, mesmo que em pequena quantidade. Nesses casos, parece razoável, por exemplo, testar se ou (observando o primeiro termo da expansão acima) vez de se . Isso cuida de alguns dos problemas que, de outra forma, enfrentamos à medida que aumenta. $n$ $|\gamma|\leq 1$

| n^{- 1 / 2} \frac{1}{6} γ (2 z_{α / 2}^{2} + 1) ϕ (z_{α / 2}) | \leq 0.01

$|n^{-1/2}\frac{1}{6}\gamma(2z_{\alpha/2}^2+1)\phi(z_{\alpha/2})|\leq 0.01$

γ = 0

$\gamma=0$

n

$n$

— MånsT
fonte

2

Agora esta é uma ótima resposta!

— usar o seguinte comando

10

Sim este deve ser o aceito, a resposta realmente fantástico

— jenesaisquoi

2

"é comum que apenas alguns tipos de não normalidade sejam motivo de preocupação para um procedimento inferencial específico". - é claro que se deve então usar um teste direcionado para esse tipo de não normalidade. Mas o fato de alguém estar usando um teste de normalidade implica que ele se preocupa com todos os aspectos da normalidade. A questão é: é um teste de normalidade, nesse caso, uma boa opção.

— Rbm

Os testes para a suficiência de suposições para testes específicos estão se tornando comuns, o que felizmente remove algumas das suposições.

— Carl

1

@Carl: Você pode adicionar algumas referências / exemplos para isso?

— kjetil b halvorsen 03/02

58

Os testes de normalidade do IMHO são absolutamente inúteis pelos seguintes motivos:

Em amostras pequenas, há uma boa chance de que a verdadeira distribuição da população seja substancialmente não normal, mas o teste de normalidade não é poderoso para captá-lo.
Em amostras grandes, coisas como o teste T e ANOVA são bastante robustas à não normalidade.
Toda a ideia de uma população normalmente distribuída é apenas uma aproximação matemática conveniente. Nenhuma das quantidades tipicamente tratadas estatisticamente poderia ter distribuições plausíveis com suporte de todos os números reais. Por exemplo, as pessoas não podem ter uma altura negativa. Algo não pode ter massa negativa ou mais massa do que existe no universo. Portanto, é seguro dizer que nada é exatamente distribuído normalmente no mundo real.

— dsimcha
fonte

2

A diferença de potencial elétrico é um exemplo de uma quantidade do mundo real que pode ser negativa.

— Nico

16

@nico: Claro que pode ser negativo, mas há um limite finito, porque existem apenas muitos prótons e elétrons no Universo. Claro que isso é irrelevante na prática, mas esse é o meu ponto. Nada é exatamente distribuído normalmente (o modelo está errado), mas há muitas coisas que estão próximas o suficiente (o modelo é útil). Basicamente, você já sabia que o modelo estava errado e rejeitar ou não o nulo não fornece essencialmente nenhuma informação sobre se ele é útil.

— precisa saber é o seguinte

1

@dsimcha - Acho que é uma resposta realmente perspicaz e útil.

— Rolando2

5

@dsimcha, o teste e a ANOVA não são robustos à não normalidade. Veja artigos de Rand Wilcox.

t

$t$

— Frank Harrell

@dsimcha "o modelo está errado". TODOS os modelos não estão "errados"?

— Atirag

30

Eu acho que o pré-teste de normalidade (que inclui avaliações informais usando gráficos) erra o ponto.

Os usuários dessa abordagem assumem que a avaliação da normalidade tem efetivamente um poder próximo a 1,0.
Testes não paramétricos como Wilcoxon, Spearman e Kruskal-Wallis têm eficiência de 0,95 se a normalidade se mantiver.
Tendo em vista o item 2., pode-se pré-especificar o uso de um teste não paramétrico, se considerarmos a possibilidade de que os dados não surjam de uma distribuição normal.
Os modelos de probabilidade cumulativa ordinal (o modelo de chances proporcionais sendo um membro desta classe) generalizam testes não paramétricos padrão. Modelos ordinais são completamente transformação invariante no que diz respeito a , são robustos, potente, e permitir a estimativa de quantis e média de . $Y$ $Y$

— Frank Harrell
fonte

note que a eficiência de 0,95 é assintótica : FWIW eu acho que a eficiência é muito menor para tamanhos de amostra finitos típicos ... (embora seja certo que eu não vi isso estudado, nem tentei explorá-lo)

— Ben Bolker

16

Antes de perguntar se um teste ou qualquer tipo de verificação aproximada da normalidade é "útil", você deve responder à pergunta por trás da pergunta: "Por que você está perguntando?"

Por exemplo, se você deseja colocar apenas um limite de confiança em torno da média de um conjunto de dados, os desvios da normalidade podem ou não ser importantes, dependendo da quantidade de dados que você possui e do tamanho dos desvios. No entanto, desvios da normalidade tendem a ser cruciais se você quiser prever qual será o valor mais extremo em observações futuras ou na população da qual você amostrou.

— Emil Friedman
fonte

12

Deixe-me acrescentar uma pequena coisa: realizar
um teste de normalidade sem levar em consideração o erro alfa aumenta a probabilidade geral de executar um erro alfa.

Você nunca deve esquecer que cada teste adicional faz isso desde que você não controle a acumulação de erro alfa. Portanto, outro bom motivo para descartar o teste de normalidade.

— Henrik
fonte

Suponho que você esteja se referindo a uma situação em que primeiro faz um teste de normalidade e depois usa o resultado desse teste para decidir qual teste executar a seguir.

— Harvey Motulsky

3

Refiro-me à utilidade geral dos testes de normalidade quando usado como método para determinar se é apropriado ou não usar um determinado método. Se você aplicá-los nesses casos, é melhor, em termos de probabilidade de cometer um erro alfa, executar um teste mais robusto para evitar o acúmulo de erro alfa.

— Henrik

4

Isto não faz sentido para mim. Mesmo se você decidir entre, digamos, uma ANOVA ou um método baseado em classificação, com base em um teste de normalidade (uma má ideia, é claro), no final do dia você ainda executaria apenas um teste de comparação de interesses. Se você rejeitar a normalidade erroneamente, ainda não chegou a uma conclusão errada em relação a essa comparação específica. Você pode estar executando dois testes, mas o único caso em que você pode concluir que esse fator tem efeito é quando o segundo teste também rejeita , não quando apenas o primeiro faz. Assim, há acúmulo de alfa-erro ...

H_{0}

$H_0$

— Gala

3

Outra maneira de um teste de normalidade aumentar os erros do tipo I é se estamos falando de "probabilidade geral de executar um erro alfa". O teste em si tem uma taxa de erro; portanto , no geral , nossa probabilidade de cometer um erro aumenta. Ênfase em uma coisa pequena demais suponho ...

— Nick Stauner

2

@NickStauner Isso é exatamente o que eu queria transmitir. Obrigado por deixar esse ponto ainda mais claro.

— Henrik

11

As respostas aqui já abordaram vários pontos importantes. Para resumir rapidamente:

Não há teste consistente que possa determinar se um conjunto de dados realmente segue uma distribuição ou não.
Os testes não substituem a inspeção visual dos dados e modelos para identificar alta alavancagem, observações de alta influência e comentários sobre seus efeitos nos modelos.
As suposições para muitas rotinas de regressão são frequentemente citadas erroneamente como requerendo "dados" normalmente distribuídos [resíduos] e que isso é interpretado por estatísticos iniciantes como exigindo que o analista avalie formalmente isso em algum sentido antes de prosseguir com as análises.

Estou adicionando uma resposta primeiramente para citar um dos meus artigos estatísticos mais acessados e lidos pessoalmente: " A Importância das Suposições de Normalidade nos Grandes Conjuntos de Dados de Saúde Pública ", de Lumley et. al. Vale a pena ler na íntegra. O resumo declara:

O teste t e a regressão linear de mínimos quadrados não requerem nenhuma suposição de distribuição Normal em amostras suficientemente grandes. Estudos de simulações anteriores mostram que “suficientemente grande” geralmente é inferior a 100, e mesmo para nossos dados de custos médicos extremamente não normais, é inferior a 500. Isso significa que, em pesquisas em saúde pública, onde as amostras geralmente são substancialmente maiores que isso, t -test e o modelo linear são ferramentas padrão úteis para analisar diferenças e tendências em muitos tipos de dados, não apenas naquelas com distribuições normais. Testes estatísticos formais para Normalidade são especialmente indesejáveis, pois terão baixa potência nas amostras pequenas onde a distribuição é importante e alta potência apenas nas amostras grandes nas quais a distribuição não é importante.

Embora as propriedades de amostra grande da regressão linear sejam bem compreendidas, há poucas pesquisas sobre os tamanhos de amostra necessários para que a suposição de Normalidade não seja importante. Em particular, não está claro como o tamanho da amostra necessário depende do número de preditores no modelo.

O foco nas distribuições normais pode distrair as suposições reais desses métodos. A regressão linear pressupõe que a variação da variável de resultado é aproximadamente constante, mas a principal restrição dos dois métodos é que eles assumem que é suficiente examinar as alterações na média da variável de resultado. Se algum outro resumo da distribuição for de maior interesse, o teste t e a regressão linear podem não ser apropriados.

Resumindo: geralmente a normalidade não vale a discussão ou a atenção que recebe em contraste com a importância de responder a uma questão científica específica. Se o desejo é resumir as diferenças médias nos dados, o teste t e ANOVA ou regressão linear são justificados em um sentido muito mais amplo. Os testes baseados nesses modelos permanecem no nível alfa correto, mesmo quando as premissas de distribuição não são cumpridas, embora o poder possa ser afetado adversamente.

As razões pelas quais as distribuições normais podem receber a atenção que recebem podem ser por razões clássicas, onde testes precisos baseados em distribuições F para ANOVAs e distribuições T de Student para o teste T podem ser obtidos. A verdade é que, entre os muitos avanços modernos da ciência, geralmente lidamos com conjuntos de dados maiores do que os coletados anteriormente. De fato, se alguém está lidando com um pequeno conjunto de dados, a lógica de que esses dados são normalmente distribuídos não pode vir deles mesmos: simplesmente não há energia suficiente. Observar outras pesquisas, replicações ou mesmo a biologia ou ciência do processo de medição é, na minha opinião, uma abordagem muito mais justificada para discutir um possível modelo de probabilidade subjacente aos dados observados.

Por esse motivo, optar por um teste baseado em classificação como alternativa perde totalmente o objetivo. No entanto, concordarei que o uso de estimadores de variância robustos, como o canivete ou o bootstrap, oferece alternativas computacionais importantes que permitem a realização de testes sob uma variedade de violações mais importantes da especificação do modelo, como independência ou distribuição idêntica desses erros.

— AdamO
fonte

10

Eu costumava pensar que os testes de normalidade eram completamente inúteis.

No entanto, agora faço consultoria para outros pesquisadores. Frequentemente, a obtenção de amostras é extremamente cara e, portanto, eles querem inferir n = 8, por exemplo.

Nesse caso, é muito difícil encontrar significância estatística com testes não paramétricos, mas os testes t com n = 8 são sensíveis a desvios da normalidade. Então, o que obtemos é que podemos dizer "bem, dependendo da suposição de normalidade, encontramos uma diferença estatisticamente significativa" (não se preocupe, esses geralmente são estudos piloto ...).

Então, precisamos de uma maneira de avaliar essa suposição. Estou no meio do campo que olhar para as parcelas é o melhor caminho a percorrer, mas, verdade seja dita, pode haver muita discordância sobre isso, o que pode ser muito problemático se uma das pessoas que discorda de você é a revisor de seu manuscrito.

De muitas maneiras, ainda acho que existem muitas falhas nos testes de normalidade: por exemplo, deveríamos pensar mais no erro do tipo II do que no tipo I. Mas há uma necessidade deles.

— Cliff AB
fonte

Observe que os argumentos aqui são que os testes são apenas inúteis em teoria. Em teoria, sempre podemos obter quantas amostras quisermos ... Você ainda precisará dos testes para provar que seus dados estão pelo menos de alguma forma próximos da normalidade.

— SmallChess 20/05

2

Bom ponto. Eu acho que o que você está implicando, e certamente o que eu acredito, é que uma medida de desvio da normalidade é mais importante que um teste de hipótese.

— Cliff AB

Desde que eles não mudem para um teste não paramétrico e tentem interpretar os valores-p (que são invalidados pelo pré-teste condicional), talvez esteja tudo bem ?!

— Björn

2

O poder de um teste de normalidade será muito baixo em n = 8; em particular, desvios da normalidade que afetarão substancialmente as propriedades de um teste que pressupõe que pode ser bastante difícil de detectar em amostras pequenas (seja por teste ou visualmente).

— 21918 Glenbrook

1

@Glen_b: eu concordo; Eu acho que esse sentimento está alinhado com o cuidado mais com erros do tipo II, e não com o tipo I. Meu argumento é que existe uma necessidade no mundo real de testar a normalidade. Se nossas ferramentas atuais realmente preenchem essa necessidade é uma questão diferente.

— Cliff AB

10

Pelo que vale a pena, uma vez desenvolvi um amostrador rápido para a distribuição normal truncada, e o teste de normalidade (KS) foi muito útil na depuração da função. Esse amostrador passa no teste com grandes tamanhos de amostra, mas, curiosamente, o amostrador de zigurate da GSL não.

— Arthur B.
fonte

8

O argumento que você deu é uma opinião. Penso que a importância do teste de normalidade é garantir que os dados não se afastem severamente do normal. Às vezes, eu o uso para decidir entre usar um teste paramétrico versus um não paramétrico para o meu procedimento de inferência. Eu acho que o teste pode ser útil em amostras moderadas e grandes (quando o teorema do limite central não entra em cena). Eu costumo usar os testes Wilk-Shapiro ou Anderson-Darling, mas executando o SAS eu os pego todos e eles geralmente concordam muito bem. Em uma nota diferente, acho que procedimentos gráficos como gráficos QQ funcionam igualmente bem. A vantagem de um teste formal é que ele é objetivo. Em amostras pequenas, é verdade que esses testes de qualidade de ajuste praticamente não têm poder e isso faz sentido intuitivo, porque uma amostra pequena de uma distribuição normal pode por acaso parecer bastante normal e isso é explicado no teste. Também a alta assimetria e curtose que distinguem muitas distribuições não normais das distribuições normais não são facilmente vistas em pequenas amostras.

— Michael Chernick
fonte

2

Embora certamente possa ser usado dessa maneira, não acho que você seja mais objetivo do que com um QQ-Plot. A parte subjetiva dos testes é quando decidir que seus dados estão fora do normal. Com uma amostra grande, a rejeição em p = 0,05 pode muito bem ser excessiva.

— Erik

4

O pré-teste (conforme sugerido aqui) pode invalidar a taxa de erro Tipo I do processo geral; deve-se levar em consideração o fato de que um pré-teste foi realizado ao interpretar os resultados de qualquer teste selecionado. De maneira mais geral, os testes de hipóteses devem ser mantidos para testar a hipótese nula com a qual realmente se preocupa, ou seja, que não há associação entre variáveis. A hipótese nula de que os dados são exatamente normais não se enquadra nessa categoria.

— guest

1

(+1) Há excelentes conselhos aqui. Erik, o uso de "objetivo" também me surpreendeu, até que eu percebi que Michael estava certo: duas pessoas que conduzem corretamente o mesmo teste nos mesmos dados sempre terão o mesmo valor p, mas podem interpretar o mesmo gráfico de QQ de maneira diferente. Convidado: obrigado pela nota de advertência sobre o erro do tipo I. Mas por que não devemos nos importar com a distribuição de dados? Freqüentemente, essa é uma informação interessante e valiosa. Eu pelo menos quero saber se os dados são consistentes com as suposições que meus testes estão fazendo sobre eles!

— whuber

1

Eu discordo fortemente. Ambas as pessoas obtêm o mesmo gráfico QQ e o mesmo valor p. Para interpretar o valor-p, é necessário levar em consideração o tamanho da amostra e as violações da normalidade às quais seu teste é particularmente sensível. Portanto, decidir o que fazer com o seu valor-p é igualmente subjetivo. O motivo pelo qual você pode preferir o valor p é que acredita que os dados podem seguir uma distribuição normal perfeita - caso contrário, é apenas uma questão de quão rapidamente o valor p cai com o tamanho da amostra. Além disso, dado um tamanho de amostra decente, o gráfico QQ parece praticamente o mesmo e permanece estável com mais amostras.

— Erik

1

Erik, concordo que os resultados e os gráficos dos testes requerem interpretação. Mas o resultado do teste é um número e não haverá nenhuma disputa sobre isso. O gráfico QQ, no entanto, admite várias descrições. Embora cada um possa estar objetivamente correto, a escolha do que prestar atenção é ... uma escolha. É isso que "subjetivo" significa: o resultado depende do analista, não apenas do procedimento em si. É por isso que, por exemplo, em ambientes tão variados quanto gráficos de controle e regulamentos governamentais em que a "objetividade" é importante, os critérios são baseados em testes numéricos e nunca em resultados gráficos.

— whuber

7

Eu acho que uma abordagem de entropia máxima pode ser útil aqui. Podemos atribuir uma distribuição normal porque acreditamos que os dados são "normalmente distribuídos" (o que isso significa) ou porque esperamos apenas ver desvios da mesma magnitude. Além disso, como a distribuição normal possui apenas duas estatísticas suficientes, é insensível a alterações nos dados que não alteram essas quantidades. Portanto, de certa forma, você pode pensar em uma distribuição normal como uma "média" em todas as distribuições possíveis com o mesmo primeiro e segundo momentos. isso fornece uma razão pela qual os mínimos quadrados devem funcionar tão bem quanto ele.

— probabilityislogic
fonte

Boa ponte de conceitos. Também concordo que nos casos em que essa distribuição é importante, é muito mais esclarecedor pensar em como os dados são gerados. Aplicamos esse princípio na montagem de modelos mistos. Por outro lado, as concentrações ou proporções são sempre distorcidas. Devo acrescentar que por "o normal ... é insensível a mudanças", você quer dizer invariante a mudanças na forma / escala.

— Adamo

7

Eu não diria que é inútil, mas realmente depende da aplicação. Observe que você nunca sabe realmente a distribuição da qual os dados vêm e tudo o que você tem é um pequeno conjunto de realizações. Sua média da amostra é sempre finita na amostra, mas a média pode ser indefinida ou infinita para alguns tipos de funções de densidade de probabilidade. Vamos considerar os três tipos de distribuição estável de Levy, ou seja, distribuição normal, distribuição de Levy e distribuição de Cauchy. A maioria das suas amostras não possui muitas observações na cauda (ou seja, fora da média da amostra). Então, empiricamente, é muito difícil distinguir entre os três, de modo que o Cauchy (com média indefinida) e o Levy (com média infinita) poderiam facilmente disfarçar-se como uma distribuição normal.

— kolonel
fonte

1

"... empiricamente é muito difícil ..." parece argumentar contra , e não a favor , testes distributivos. É estranho ler em um parágrafo cuja introdução sugere que há realmente usos para testes de distribuição. O que você está realmente tentando dizer aqui?

— whuber

3

Sou contra, mas também quero ter cuidado do que apenas dizer que é inútil, pois não conheço todo o conjunto de cenários possíveis por aí. Existem muitos testes que dependem da suposição de normalidade. Dizer que o teste de normalidade é inútil é essencialmente desmistificar todos os testes estatísticos, pois você está dizendo que não tem certeza de que está usando / fazendo a coisa certa. Nesse caso, você não deve fazê-lo, não deve fazer esta grande seção de estatísticas.

— Kolonel

Obrigado. As observações nesse comentário parecem estar mais focadas na pergunta do que sua resposta original! Você pode considerar atualizar sua resposta em algum momento para tornar suas opiniões e conselhos mais aparentes.

— whuber

@whuber Sem problemas. Você pode recomendar uma edição?

— kolonel

Você pode começar combinando as duas postagens - a resposta e seu comentário - e depois pensar em eliminar (ou relegar um apêndice ou esclarecer) qualquer material que possa ser tangencial. Por exemplo, a referência aos indefinidos ainda não tem uma relação clara com a questão e, portanto, permanece um tanto misteriosa.

— whuber

7

Penso que as 2 primeiras perguntas foram completamente respondidas, mas não acho que a questão 3 foi abordada. Muitos testes comparam a distribuição empírica a uma distribuição hipotética conhecida. O valor crítico para o teste Kolmogorov-Smirnov é baseado em F sendo completamente especificado. Pode ser modificado para testar contra uma distribuição paramétrica com parâmetros estimados. Portanto, se mais nebuloso significa estimar mais de dois parâmetros, a resposta para a pergunta é sim. Esses testes podem ser aplicados nas 3 famílias de parâmetros ou mais. Alguns testes foram projetados para ter melhor poder ao testar em uma família específica de distribuições. Por exemplo, ao testar a normalidade, o teste de Anderson-Darling ou Shapiro-Wilk tem maior poder que KS ou qui-quadrado quando a distribuição hipotética nula é normal.

— Michael Chernick
fonte

5

Testes em que "algo" importante para a análise é suportado por altos valores de p são considerados errados. Como outros salientaram, para grandes conjuntos de dados, é garantido um valor p abaixo de 0,05. Portanto, o teste "recompensa" essencialmente por conjuntos de dados pequenos e difusos e "recompensa" por falta de evidência. Algo como gráficos qq são muito mais úteis. O desejo de números concretos para decidir coisas assim sempre (sim / não normal / não normal) deixa de notar que a modelagem é parcialmente uma arte e como as hipóteses são realmente suportadas.

— wvguy8258
fonte

2

Resta que uma amostra grande que é quase normal terá um valor p baixo, enquanto uma amostra menor que não é tão normal normalmente não. Eu não acho que grandes valores de p sejam úteis. Mais uma vez, eles recompensam pela falta de evidências. Posso ter uma amostra com vários milhões de pontos de dados, e ela quase sempre rejeita a suposição de normalidade nesses testes, enquanto uma amostra menor não. Portanto, acho que eles não são úteis. Se meu pensamento é defeituoso, mostre-o usando algum raciocínio dedutivo neste ponto.

— Wvguy8258

Isso não responde à pergunta.

— SmallChess 02/02

-2

Um bom uso do teste de normalidade que acho que não foi mencionado é determinar se o uso de z-scores está correto. Digamos que você selecionou uma amostra aleatória de uma população e deseja encontrar a probabilidade de selecionar um indivíduo aleatório da população e obter um valor de 80 ou mais. Isso pode ser feito apenas se a distribuição for normal, porque, para usar escores z, a suposição é de que a distribuição populacional é normal.

Mas então eu acho que posso ver isso sendo discutível também ...

— Hotaka
fonte

Valor do que? Média, soma, variância, uma observação individual? Somente o último depende da normalidade assumida da distribuição.

— whuber

eu quis dizer individual #

— 10000 Hotaka

2

Obrigado. Sua resposta permanece tão vaga, porém, que é difícil dizer a quais procedimentos você está se referindo e impossível avaliar se suas conclusões são válidas.

— whuber

2

O problema com esse uso é o mesmo que com outros usos: o teste depende do tamanho da amostra; portanto, é essencialmente inútil. Não informa se você pode usar z scores.

— Peter Flom