O gráfico QQ parece normal, mas o teste Shapiro-Wilk diz o contrário

No R, tenho uma amostra de 348 medidas e quero saber se posso assumir que ela é normalmente distribuída para testes futuros.

Essencialmente, seguindo outra resposta da pilha , estou analisando o gráfico de densidade e o gráfico QQ com:

plot(density(Clinical$cancer_age))

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

Eu não tenho uma forte experiência em estatística, mas eles se parecem com exemplos de distribuições normais que eu já vi.

Então, eu estou executando o teste Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Se eu interpretá-lo corretamente, ele me diz que é seguro rejeitar a hipótese nula, que é que a distribuição é normal.

No entanto, encontrei duas postagens de pilha ( aqui e aqui ), que minam fortemente a utilidade deste teste. Parece que se a amostra for grande (348 é considerada grande?), Sempre dirá que a distribuição não é normal.

Como devo interpretar tudo isso? Devo seguir o gráfico de QQ e assumir que minha distribuição é normal?

r normal-distribution

— francoiskroll
fonte

O gráfico qq parece mostrar uma saída do normal nas caudas. Além disso, qualquer teste útil da qualidade do ajuste será rejeitado em amostras muito grandes simplesmente porque haverá pequenas desvios da normalidade que são detectados. Não é uma crítica ao teste Shapiro - Wilk, mas sim uma característica do teste da qualidade do ajuste.

— Michael R. Chernick

Por que assumir uma distribuição normal é importante para você? O que você pretende fazer com base nessa suposição?

— Roland

Apenas para acrescentar aos comentários de Roland - muitos testes que assumem formalmente uma distribuição normal são na verdade bastante robustos, com pequenos desvios da normalidade (por exemplo, porque a distribuição da estatística do teste é assintoticamente correta). Se você puder elaborar sobre o que pretende fazer, poderá obter respostas mais úteis.

— P.Windridge

@mdewey, observação afiada! Não é a idade da incidência, mas a "idade" do tumor medida pela metilação do DNA.

— Francoiskroll

Eu acho que valeria a pena examinar o pequeno número de observações extremas apenas para verificar se são erros de medição.

— mdewey

Respostas:

Você não tem um problema aqui. Seus dados podem estar um pouco fora do normal, mas é normal o suficiente para não causar problemas. Muitos pesquisadores fazem testes estatísticos assumindo normalidade com muito menos dados normais do que aqueles que você possui.

Eu confiaria nos seus olhos. As parcelas de densidade e QQ parecem razoáveis, apesar de alguma leve inclinação positiva nas caudas. Na minha opinião, você não precisa se preocupar com a não normalidade desses dados.

Você tem um N de cerca de 350 e os valores de p dependem muito do tamanho da amostra. Com uma amostra grande, quase tudo pode ser significativo. Isso foi discutido aqui.

Há algumas respostas incríveis nesse post muito popular que basicamente concluem que a realização de um teste de significância de hipótese nula para a não normalidade é "essencialmente inútil". A resposta aceita nesse post é uma demonstração fabulosa de que, mesmo quando os dados foram gerados a partir de um processo quase gaussiano, um tamanho de amostra alto o suficiente torna o teste não normal significativo.

Desculpe, percebi que estava vinculado a uma postagem que você mencionou na sua pergunta original. Minha conclusão ainda permanece, no entanto: seus dados não são tão incomuns que devem causar problemas.

— Mark White
fonte

Só porque alguns pesquisadores são muito desleixados não significa que você pode ser um pouco desleixado :). No entanto concordo com que muitos testes estatísticos que formalmente assumir normalidade são realmente bastante tolerante do que você alimentar o

— P.Windridge

"Só porque alguns pesquisadores são muito desleixados não significa que você pode ser um pouco desleixado :)" Ponto justo; esse foi um argumento ruim da minha parte. "No entanto, eu concordo com o fato de que muitos testes estatísticos que formalmente assumem a normalidade são realmente tolerantes com o que você os alimenta". Sim, de fato. Qualquer professor de quantia que eu já tive analisou gráficos de QQ assim e disse: "Sim, tudo bem."

— Mark White

Sua distribuição não é normal. Olhe para as caudas (ou a falta delas). Abaixo está o que você esperaria de um gráfico QQ normal.

Consulte este post sobre como interpretar vários gráficos de QQ.

Lembre-se de que, embora uma distribuição não seja tecnicamente normal, ela pode ser normal o suficiente para se qualificar para algoritmos que exigem normalidade.

— reparação
fonte

Do que você está falando, eu executei 9 gráficos qq normais de amostras diretamente em uma distribuição normal usando o código set.seed (100) par (mfrow = c (3,3)) para (i in 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} e plot (3,2) se parecem muito com a situação do OP.

— Josh

Normalmente, você não quer se concentrar nas caudas, porque elas costumam ser estranhas, embora caudas extremamente ruins lhe dêem resultados ruins. Você realmente quer se concentrar no meio.

— Josh

você está incorreto Josh. recorra a um teste normal para verificar se a hipótese nula de normalidade é rejeitada.

— reparação

Você está certo. Inicialmente, li sua postagem porque os gráficos qq não eram normais o suficiente e peço desculpas.

— Josh

@ Josh, o meio da distribuição dificilmente importa para testes de hipóteses; são as caudas que importam. Você tem isso ao contrário.

— gung - Restabelece Monica