Estou examinando uma parte do meu conjunto de dados contendo 46840 valores duplos, variando de 1 a 1690, agrupados em dois grupos. Para analisar as diferenças entre esses grupos, comecei examinando a distribuição dos valores para escolher o teste certo.
Seguindo um guia sobre testes de normalidade, fiz um qqplot, histograma e boxplot.
Isso não parece ser uma distribuição normal. Como o guia afirma um tanto corretamente que um exame puramente gráfico não é suficiente, também quero testar a distribuição quanto à normalidade.
Considerando o tamanho do conjunto de dados e a limitação do teste shapiro-wilks em R, como a distribuição fornecida deve ser testada quanto à normalidade e considerando o tamanho do conjunto de dados, isso é confiável? ( Veja a resposta aceita para esta pergunta )
Editar:
A limitação do teste de Shapiro-Wilk a que me refiro é que o conjunto de dados a ser testado é limitado a 5000 pontos. Para citar outra boa resposta sobre esse tópico:
Um problema adicional com o teste de Shapiro-Wilk é que, quando você fornece mais dados, as chances de a hipótese nula ser rejeitada se tornam maiores. Então, o que acontece é que, para grandes quantidades de dados, até desvios muito pequenos da normalidade podem ser detectados, levando à rejeição do evento de hipótese nula que, por motivos práticos, os dados são mais do que o normal o suficiente.
Felizmente, shapiro.test protege o usuário do efeito descrito acima, limitando o tamanho dos dados a 5000.
Quanto ao motivo pelo qual estou testando a distribuição normal em primeiro lugar:
Alguns testes de hipótese assumem a distribuição normal dos dados. Quero saber se posso ou não usar esses testes.